تشهد تقنية الذكاء الاصطناعي تقدمًا ملحوظًا في قدرتها على التفاعل مع العالم المادي، ويُعتبر ظهور نماذج اللغات الضخمة متعددة الأنماط (Multimodal Large Language Models - MLLMs) أحد أبرز التطورات في هذا المجال. تعمل هذه النماذج كالعقل المدبر للروبوتات، مما يمكنها من استخدام الأدوات الفيزيائية في الواقع.

على الرغم من أهمية هذه القدرة، فإن كفاءة MLLMs في استخدام الأدوات الفيزيائية لم تُستكشف بشكل كافٍ بعد. ومن أجل تسليط الضوء على هذا الأمر، تم تقديم مقياس جديد يسمى PhysTool-Bench، وهو الأول من نوعه لتقييم قدرة MLLMs على فهم السيناريوهات الواقعية، وتحديد الأدوات الفيزيائية، والتخطيط لاستخدامها.

يتكون PhysTool-Bench من 2,510 استفسارات تغطي 2,678 أداة فيزيائية حقيقية من مجالات متنوعة، تشمل التصنيع، والصناعات الكهربائية، والزراعة، والرعاية الصحية.

تتمثل الأبعاد الأساسية للتقييم في: 1) التعرف على جميع الأدوات الفيزيائية المتواجدة في المشهد، و2) التخطيط لاختيار الأدوات وتسلسل استخدامها بناءً على التعليمات والسياق المرئي.

وعلى الرغم من التقدم، فقد أظهرت التحليلات أن أقوى النماذج (Gemini-3.1-Pro) لم تتمكن من التعرف سوى على 58.7% من الأدوات في المشهد، وأكملت 21.0% فقط من الاستفسارات بشكل كامل. تكشف هذه النتائج عن وجود عجز مزدوج في قدرات MLLMs: صعوبة في إدراك الأدوات في المشاهد الواقعية، وانخفاض كبير في مرحلة التخطيط مما يدل على نقص في الفطرة السليمة لوظائف ربط الأدوات المرئية بمعاني المهام.

هذا يشكل عنق زجاجة حيويًا في تطوير الذكاء الاصطناعي القائم على الجسم والتفاعل مع العالم الخارجي. كيف نستطيع تحسين هذه النماذج لتحقيق أداء أفضل في المستقبل؟