في ضوء الدور المتزايد لنماذج اللغة المتعددة الوسائط (Multimodal Language Models) في الأبحاث العلمية، برزت أهمية علوم المواد كمجال اختبار حاسم. يتميز هذا المجال بكونه متعدد التخصصات، ومتعدد الوسائط، وموجهًا نحو التطبيقات. رغم هذا، تركز المعايير الحالية بشكل رئيسي على توقع الخصائص أو فهم المعرفة، مما يترك عملية التفكير الأوسع من المعرفة التطبيقية غير مستكشفة بما فيه الكفاية.
لملء هذه الفجوة، تم الإعلان عن OmniMatBench، وهو معيار تقييم تفكير متعدد النماذج تم تطويره بمساعدة الإنسان في مجال علوم المواد. يحتوي OmniMatBench على 3,171 مشكلة منسقة من قبل خبراء تشمل 19 مجالًا فرعيًا في علوم المواد، تغطي المعرفة الأساسية في المواد، والمواد الهيكلية والهندسية، ومعالجة المواد والتصنيع، بالإضافة إلى المواد الوظيفية والتطبيقية.
بعد تقييم 13 نموذجًا مفتوح المصدر ومغلق المصدر، أظهرت نتائج التقييم أن أفضل نموذج حقق فقط 0.372 نقطة إجمالية، مما يكشف عن فجوة ملحوظة في التفكير الحالي في علوم المواد. تكشف التحليلات الإضافية عن تباين قوي عبر المجالات الفرعية، وثوابت في الاستدلال، ومعرفة غير متوازنة في المواد، وتطبيق محدود للمعرفة عالية المستوى في سياقات مساعدة مثل الصيغ، والاسترجاع، والترميز.
تمثل OmniMatBench عمليًا نقطة انطلاق مهمة التي توفر رؤى حاسمة حول القدرة والقيود الحالية للنماذج اللغوية المتعددة الوسائط، وتؤسس قاعدة معلوماتية لمساعدي الذكاء الاصطناعي الموثوقين في أبحاث علوم المواد.
إطلاق OmniMatBench: معيار ثوري لتقييم التفكير المتعدد النماذج في علوم المواد
تقدم منصة OmniMatBench معيارًا جديدًا لتقييم التفكير المتعدد النماذج في علوم المواد، حيث تضم أكثر من 3000 مسألة تمتعها بالتحقق من قبل خبراء. تعكس هذه المنصة الفجوات الموجودة في عملية التفكير وتضع أساسًا لمساعدين ذكاء اصطناعي موثوقين في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
