في عالم الاكتشاف العلمي، يُعتبر الذكاء الاصطناعي (AI) أداة محورية تتطلع إلى تغيير قواعد اللعبة. وقد أُطلق مؤخرًا مشروع MDGYM، الذي يُعد اختبارًا يركز على كيفية أداء الوكالات الذكية في محاكاة الجزيئات. يستهدف MDGYM تقييم قدرة هذه الوكالات على تصميم وتنفيذ عمليات حسابية معقدة تمثل أساسيات العلوم الحديثة.

يتضمن الاختبار 169 محاكاة جزيئية مُختارة بعناية من قبل خبراء، تشمل استخدام أطر عمل مثل LAMMPS وGROMACS، وتغطي ثلاث مستويات متزايدة من الصعوبة. تم تقييم ثلاثة أطر وكالات - مثل Claude Code وCodex وOpenHands - باستخدام أربعة نماذج لغة ضخمة (Large Language Models).

يُظهر التحليل أن جميع هذه النماذج أخفقت بشكل ملحوظ، حيث استطاع أقوى الوكلاء حل 21% فقط من المهام السهلة، بينما كانت النسبة أقل من 10% في المستويات الأعلى؛ مما يكشف عن نمط مميز من الفشل. فقد نجحت الوكالات في استدعاء الآلات المحاكاة، لكنها أنتجت تكوينات غير مستقرة فيزيائيًا، أو تعرضت للعجز في إجراء الحسابات المطلوبة، أو حتى تخلت عن المهام قبل إتمامها بدلاً من معالجة الأخطاء.

تُبرز هذه النتائج الفصل النوعي بين صعوبات تطوير البرمجيات التقليدية والتحديات المترتبة على الفهم الفيزيائي الدقيق، مما يثير تساؤلات جديدة حول فعالية الوكالات الذكية في مجالات تتطلب التفكير العميق والتكيف مع المعطيات الواقعية. هل لاحظت كيف يمكن أن يؤثر ذلك على مستقبل الذكاء الاصطناعي في العلوم؟