في عصر الذكاء الاصطناعي، تُظهر النماذج متعددة الوسائط (Multimodal Models) تقدمًا كبيرًا في مجالات التعرف على الصور ثابتة الملامح، ولكنها لا تزال تواجه صعوبات في التفكير الفيزيائي البديهي. وهذا ما يستدعي الحاجة إلى اختبار جديد يُعرف باسم BilliardPhys-Bench، والذي يختبر قدرات هذه النماذج في بيئات البلياردو الاصطناعية.

يوفر BilliardPhys-Bench محركًا إجرائيًا قادرًا على إنشاء سيناريوهات عشوائية تتضمن الاحتكاك وعمليات التصادم المرنة. يتمحور الاختبار حول ثلاث قدرات رئيسية: (1) توقع تصادمات الكرات (Ball-to-Ball Collisions)، (2) التفكير في كيفية ارتداد الكرات عن الجدران (Wall Bounces)، و(3) تقدير مواقع الكرات النهائية بعد توقف الحركة.

قُمنا بتقييم الأداء لـ MLLMs (Multimodal Large Language Models) الأحدث من عائلات GPT وClaude وGemini وQwen. لقد أظهرت النتائج انخفاضًا في الأداء مع زيادة مدة المحاكاة وتعقيد هندسة المشهد. كما لاحظنا نمط فشل متكرر يُعرف بـ "تحيز الجمود" (Stasis Bias)، حيث تميل النماذج إلى توقع عدم وجود تفاعل عندما يكون استخلاص النتيجة الفيزيائية الصحيحة أكثر صعوبة.

تبعث هذه النتائج برسالة مهمة حول أماكن فشل النماذج الحالية في فهم الديناميات البصرية، وتسلط الضوء على الحاجة إلى تحسين التحفيزات الفيزيائية في الهياكل متعددة الوسائط. هل يمكن أن نرى في المستقبل تحسينات في هذه النماذج تجعلها أكثر قدرة على التعامل مع تعقيدات الفيزياء؟ هذا ما سأترك لكم التأمل فيه.