تتجه الأبحاث الحديثة نحو تطوير نماذج الرؤية-اللغة-الإجراء (VLA) التي تمكّن الروبوتات من أداء مهام التلاعب استنادًا إلى تعليمات طبيعية بلغة الإنسان. ومع ذلك، تظل موثوقية هذه النماذج عند تلقي تعليمات غير متوقعة والمخرجات الناتجة منها غير مستكشفة إلى حد كبير. في دراسة جديدة، تم تسليط الضوء على حالة حرجة تُعرف باسم 'العجز اللغوي'، حيث تستمر النماذج VLA في تنفيذ إجراءات تبدو منطقية بصريًا على الرغم من تناقض التعليمات اللغوية مع المشهد المرئي الموجود.

تم تطوير أداة تشخيصية تُدعى ICBench، والتي تستخدم مجموعة بيانات LIBERO لتقييم جودة الربط بين اللغة والإجراءات من خلال إدخال تعليمات غير متوقعة تحت ظروف ثابتة. أظهرت التقييمات على ثلاثة نماذج VLA تمثيلية، بما في ذلك Pi0 وPi0.5 وOpenVLA OFT، أن هذه النماذج غالباً ما تنجح في تنفيذ المهام حتى مع وجود تعليمات غير منطقية، ما يكشف عن ميل قوي للانحياز البصري خلال تنفيذ الأفعال.

وللحد من هذه المشكلة، تم اقتراح تقنية جديدة تسمى إعادة معايرة الانتباه الموجه (IGAR)، وهي آلية لا تتطلب التدريب أو تعديل الهيكل، مما يسمح بإعادة ضبط توزيع الانتباه لاستعادة تأثير التعليمات اللغوية. درست التجارب عبر 30 مهمة من مجموعة LIBERO فعالية IGAR في تقليل تنفيذ الأفعال الخاطئة تحت تعليمات غير متوقعة، بينما حافظت على الأداء الأساسي للمهام. كما تم التح验证 في اختبار على ذراع روبوتية من طراز Franka، حيث نجحت IGAR في منع تنفيذ المهام عندما تكون التعليمات غير متسقة.

تُعَد هذه الدراسة بمثابة خطوة مهمة نحو تعزيز موثوقية الروبوتات في التفاعل مع التعليمات اللغوية، مما يفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي.