في عالم الذكاء الاصطناعي، يبقى السعي للفهم والتطبيق الفعّال للإكتشافات العلمية من أبرز التحديات. الفجوة بين الاكتشاف والتطبيق تعتبر علامة مميزة للذكاء العام، ولكن تقييم هذه القدرة يكون معقدًا بسبب الفجوة الكبيرة بين الاكتشاف العلمي والهندسة الواقعية.

في دراسة جديدة، تم تقديم SciCrafter، وهو معيار يعتمد على لعبة Minecraft، يحاول تشغيل هذه الفجوة من خلال مهام دارات الـ Redstone المعقدة. يتعين على الوكلاء إشعال المصابيح بأنماط محددة، مثل الإشعال المتزامن أو في تسلسلات زمنية محددة. ومن خلال زيادة المعايير المستهدفة، تصبح التعقيدات المتعلقة بالبناء والمعرفة المطلوبة أكبر، مما يجبر النماذج على الاكتشاف الحقيقي بدلاً من الاعتماد على الحلول المحفوظة.

تحت إطار عمل وكيل برمجة عام، تم تقييم نماذج متقدمة مثل GPT-5.2 وGemini-3-Pro وClaude-Opus-4.5، حيث وجدت الدراسة أن جميعها plateau عند نسبة نجاح تبلغ حوالي 26%. لفهم أسباب هذه الإخفاقات، تم تقسيم العملية إلى أربع قدرات: تحديد فجوة المعرفة، الاكتشاف التجريبي، توطيد المعرفة، وتطبيق المعرفة. وتبين أن القدرة العامة لتطبيق المعرفة لا تزال تمثل أكبر فجوة بين جميع النماذج، لكن بالنسبة للنماذج المتقدمة، بدأ تحديد فجوة المعرفة ليكون عقبة رئيسية، مما يشير إلى أن الاختناق يت shifts من حل المشكلات إلى طرح المشكلات الصحيحة على الذكاء الاصطناعي الحالي.

بالإضافة إلى ذلك، تم إصدار SciCrafter كأداة تشخيصية ستسهم في أبحاث مستقبلية حول نظم الذكاء الاصطناعي التي تسعى للتنقل خلال حلقة الاكتشاف والتطبيق الكاملة.