في الوقت الذي يتزايد فيه استخدام نماذج اللغات الكبيرة (LLMs) كمساعدين علميين ذكيين، تظهر الحاجة الملحة إلى أدوات تقييم دقيقة تقيس قدراتها بشكل شامل. هنا يأتي دور SCICONVBENCH، ليثبت أنه معيار مبتكر في مجال تقييم دقة الحوار في صياغة المهام العلمية.

تستهدف المنظومة المعايير المطلوبة في أربع مجالات رئيسية: ديناميكا السوائل، ميكانيكا المواد الصلبة، علوم المواد، والمعادلات التفاضلية الجزئية (PDEs). ويشتمل SCICONVBENCH على قدرين تكميليين: استنباط المعلومات المفقودة (إزالة الغموض) واكتشاف وتصحيح الطلبات الخاطئة التي تحتوي على معلومات متعارضة داخليًا (حل التناقض).

الميزة الفريدة لهذا النظام أنه يعزز تقييم الأداء من خلال إطار عمل مشروط، مما يجعلنا نستطيع قياس أداء نماذج اللغات الكبيرة بدقة عالية عبر ثلاثة أبعاد رئيسية: سلوك التوضيح، ضمان المحادثة، وموثوقية التحديد النهائي.

وبالرغم من الأداء الجيد للنماذج الحالية في حل التناقضات، إلا أن النتائج تشير إلى أن أفضل نموذج حالياً ينجح في حل 52.7% من حالات إزالة الغموض في ديناميكا السوائل. كما أظهرت الدراسات أن العديد من النماذج الكبيرة تدخل افتراضات غير معلنة وتقوم بإصلاحات ضمنية غير مرتبطة بالمحادثة مع المستخدمين.

باختصار، تعد SCICONVBENCH خطوة رائدة نحو تقييم قدرة أدوات الذكاء الاصطناعي في دعم الأبحاث العلمية، مما يساهم في توفير مساعدة أكثر موثوقية وكفاءة للباحثين في المستقبل. يمكن العثور على الشيفرة والبيانات = على GitHub لتطوير وتحسين هذه التكنولوجيا.