في عالم الذكاء الاصطناعي، تمتاز نماذج اللغات الضخمة (Large Language Models) بقدرتها العلمية الفائقة، ولكن أداءها في مشكلات علم المواد لم يُدرس بدقة حتى اللحظة. لذلك، تم تطوير مقياس MatSciBench، وهو معيار شامل لمستوى الكلية يتضمن 1340 مسألة تتوزع على المجالات الأساسية في علم المواد.

يتميز MatSciBench بتصنيف منظم ودقيق يوزع أسئلة علم المواد إلى 6 مجالات رئيسية و31 فرعاً فرعياً، إضافة إلى تصنيف صعوبات ثلاثي يعتمد على طول التفكير المطلوب لحل كل مسألة. يحتوي المقياس أيضًا على حلول مرجعية مفصلة لـ946 سؤالًا، ويدعم تحليل الأخطاء على مستوى العمليات، ويشمل 315 سؤالاً مع صور لتقييم التفكير متعدد الأنماط.

قمنا بتقييم نماذج التفكير وغير التفكير الرائدة على مقياس MatSciBench، واختبرنا أيضًا ثلاث طرق للتفكير لنماذج غير التفكير: تنبيه سلسلة التفكير الأساسي، تعزيز الأدوات، والتصحيح الذاتي. أظهرت النتائج أن النماذج الحالية تواجه حدودًا ملحوظة في مجال التفكير العلمي لعلم المواد على مستوى الكلية.

بينما حققت DeepSeek-R1 أعلى نقطة في الأسئلة النصية فقط بدقة بلغت 75.22%، كانت نتائج نموذج GPT-5 الأفضل في الأسئلة المصورة حيث سجلت 53.02%. تحليلاتنا تكشف أن تعزيز الأدوات يُحسن نتائج العديد من نماذج غير التفكير بطريقة فعالة في استخدام الرموز، بينما غالبًا ما تفشل التصحيحات الذاتية في تقديم مكاسب موثوقة وقد تحوّل الإجابات الصحيحة إلى غير صحيحة.

تحليلنا أيضًا يركز على الأداء عبر مستويات الصعوبة، كفاءة التفكير، التفكير متعدد الأنماط، وأنماط الفشل، ونجد أن النماذج الحالية محجمة أساسًا بسبب فجوات في معرفة المجال، أخطاء حسابية، فشل في فهم المشكلة، وصعوبات في استخراج المعلومات الدقيقة من الأشكال العلمية.

بشكل عام، يوفر MatSciBench منصة واضحة لقياس حدود نماذج اللغات الضخمة الحالية ويوجه العمل المستقبلي حول التفكير العلمي في علم المواد.