في ضوء الدور المتزايد لنماذج اللغة المتعددة الوسائط (Multimodal Language Models) في الأبحاث العلمية، برزت أهمية علوم المواد كمجال اختبار حاسم. يتميز هذا المجال بكونه متعدد التخصصات، ومتعدد الوسائط، وموجهًا نحو التطبيقات. رغم هذا، تركز المعايير الحالية بشكل رئيسي على توقع الخصائص أو فهم المعرفة، مما يترك عملية التفكير الأوسع من المعرفة التطبيقية غير مستكشفة بما فيه الكفاية.

لملء هذه الفجوة، تم الإعلان عن OmniMatBench، وهو معيار تقييم تفكير متعدد النماذج تم تطويره بمساعدة الإنسان في مجال علوم المواد. يحتوي OmniMatBench على 3,171 مشكلة منسقة من قبل خبراء تشمل 19 مجالًا فرعيًا في علوم المواد، تغطي المعرفة الأساسية في المواد، والمواد الهيكلية والهندسية، ومعالجة المواد والتصنيع، بالإضافة إلى المواد الوظيفية والتطبيقية.

بعد تقييم 13 نموذجًا مفتوح المصدر ومغلق المصدر، أظهرت نتائج التقييم أن أفضل نموذج حقق فقط 0.372 نقطة إجمالية، مما يكشف عن فجوة ملحوظة في التفكير الحالي في علوم المواد. تكشف التحليلات الإضافية عن تباين قوي عبر المجالات الفرعية، وثوابت في الاستدلال، ومعرفة غير متوازنة في المواد، وتطبيق محدود للمعرفة عالية المستوى في سياقات مساعدة مثل الصيغ، والاسترجاع، والترميز.

تمثل OmniMatBench عمليًا نقطة انطلاق مهمة التي توفر رؤى حاسمة حول القدرة والقيود الحالية للنماذج اللغوية المتعددة الوسائط، وتؤسس قاعدة معلوماتية لمساعدي الذكاء الاصطناعي الموثوقين في أبحاث علوم المواد.