تستمر النماذج اللغوية الكبيرة (LLMs) في التألق في مجالات البرمجة وتطوير البرمجيات، إلا أن نجاحها في مجالات علمية مثل علوم المواد يبقى محل تساؤل. في دراسة حديثة، تم تقديم AutoMat، وهو معيار جديد لتقييم قدرة الوكلاء البرمجيين على استنساخ النتائج من الأبحاث في علوم المواد.

تواجه AutoMat ثلاثة تحديات رئيسية: استعادة العمليات الحسابية غير المحددة، التنقل عبر أدوات متخصصة، وتقييم ما إذا كانت الأدلة الناتجة تدعم (أو تضعف) الادعاء. تم التعاون مع خبراء في المجال لتجميع مجموعة من الادعاءات من أوراق بحثية حقيقية في علوم المواد، لاختبار قدرة الوكلاء على استعادة وتنفيذ سير العمل المطلوب.

عبر تقييم عدة إعدادات لوكلاء البرمجة المستندين إلى LLMs، أظهرت نتائج الدراسة أن هذه الأنظمة تحقق معدلات نجاح منخفضة، حيث لم تصل أفضل الإعدادات إلى معدل نجاح يبلغ 54.1%. كما أن التحليل الأخطاء كشف أن الوكلاء يواجهون صعوبات أكبر عندما يتعين عليهم إعادة بناء سير العمل بناءً على نصوص الأوراق فقط، مع الإخفاقات الناتجة عن عدم اكتمال الإجراءات والانحرافات المنهجية.

تتخلص الدراسة إلى أن AutoMat لا تعد فقط معياراً للتكرار العلمي في مجالات الحوسبة، بل أيضاً أداة لتشخيص القيود الحالية للأنظمة الذكية في بيئات العلوم. يُظهر هذا البحث أهمية تطوير الذكاء الاصطناعي ليكون أكثر قدرة على التعامل مع تعقيدات العلوم المختلفة، مما يجعلنا نتساءل: هل ستكون هناك حلول لتحسين أداء هذه الوكلاء في المستقبل؟