في عالم الذكاء الاصطناعي (AI)، تتطلب الأبحاث اتخاذ قرارات قد يكون لها تأثير عميق قبل وجود الأدلة المستقبلية. لذا، تم تقديم معيار جديد يُعرف بـ ForeSci، وهو أداة مبتكرة لتقييم ما إذا كانت نماذج اللغات الضخمة (Large Language Models) يمكنها اتخاذ القرارات البحثية الاستشرافية استناداً إلى الأدلة التاريخية.

يتضمن ForeSci 500 مهمة موزعة عبر أربعة مجالات متسارعة في الذكاء الاصطناعي وأربعة فئات قرار مختلفة. كل مهمة مرتبطة بقاعدة معرفية غير متغيرة، حيث يتم إخفاء الأبحاث التي صدرت بعد القطع الزمني خلال عملية التوليد، وتستخدم فقط للتحقق من صحة النتائج. وتم تصميم المهام لتكون مناسبة لفهم توجيهات الأبحاث المستقبلية دون الاعتماد على توقعات عشوائية.

تتضمن نتائج هذا التقييم استخدام نماذج مختلفة مثل نماذج LLMs الأصلية وتكييفات وكالات البحث. وقد أظهر التقييم أن تنظيم الأدلة بشكل واضح يُحسن من إمكانية تتبع المعلومات والدعم الواقعي، لكن الفوائد تختلف بشكل كبير حسب نوع القرار المتخذ.

أحد الاكتشافات المثيرة للاهتمام كانت فصل الأدلة عن القرارات. وهذا يعني أن الوكلاء قد يستشهدون بأدلة ذات صلة بينما يتنبؤون بشكل خاطئ بمحتوى الأبحاث. من هنا، يمثل ForeSci تحولا في القدرة على تقييم وكالات الأبحاث كأنظمة اتخاذ قرارات، مما يفتح الأفق أمام تحسينات مستقبلية مدهشة في بحوث الذكاء الاصطناعي.