في عالم الاكتشاف العلمي، يعتبر التفكير الإبداعي والقدرة على تقدير الشكوك من العوامل الحيوية. ولمواجهة التحديات المرتبطة بربط المعرفة السابقة بإبداع البحث، تم اقتراح العديد من المعايير لتقييم أداء نماذج اللغة الضخمة (Large Language Models) في المهام البحثية المعقدة. لكن، تبقى قدرة هذه النماذج على التفكير الابتكاري، والتي تُعتبر أساسية للاكتشاف العلمي الحقيقي، دون اختبار فعلي.

أدخل باحثون إطار عمل جديد يهدف إلى تقييم أداء النماذج في عمليات الاكتشاف العلمي والتفكير، والذي يبدأ بتقديم مشكلة شبه خام قبل الانتقال إلى اختبار الفرضية التقليدي. في هذا الإطار، تُعطى النماذج بدايةً موضوع السؤال البحثي فقط من ورقة بحثية جديدة، مع كشف تدريجي للتفاصيل التقنية. في كل مرحلة من مراحل الكشف عن المعلومات، يُطلب من النموذج توليد فرضيات تعالج السؤال البحثي، والتي يتم مقارنتها مع النتائج المستخلصة من الورقة الأصلية.

ما يجعل هذا الإطار مميزاً هو قدرته على تقييم الابتكار الذي تتمتع به النماذج في ظل الحد الأدنى من المعلومات، إلى جانب قدرتها على التفكير القائم على الحقائق عند الاطلاع على التفاصيل التجريبية الكاملة، وكلاهما ضروريان لاستخدام نماذج اللغة الضخمة في مجالات الاكتشاف العلمي.

بالإضافة إلى ذلك، تم تقييم نماذج مثل GPT-5 وGPT-5.4 وجيميناي 2.5 برو وجيميناي 3.1 برو عبر 45 ورقة بحثية تتنوع بين المواد البيولوجية النشطة والمواد الميكانيكية والمواد النانوية.

أظهرت النتائج أن كل من GPT-5.4 وجيميناي 3.1 برو يتفوقان على نظرائهما من الجيل السابق كما هو متوقع، بينما حافظ GPT-5.4 بشكل خاص على توافق مع النتائج الحقيقية بمعدل F1 Score يبلغ 0.7 حتى في ظل وجود معلومات محدودة.

هذا الاكتشاف يسلط الضوء على أهمية تقييم القدرات العلمية لنماذج اللغة الضخمة، مما يمهد الطريق لتطوير أنظمة عالمية جديدة في الذكاء الاصطناعي للبحث العلمي.