في عالم الذكاء الاصطناعي، تأتي نماذج رؤية اللغة (Vision Language Action Models) لتدمج بين الإدراك اللغوي والتحكم في تنفيذ المهام. لكنها تواجه تحديًا كبيرًا عند تغيير ظروف الرؤية، حيث يصبح من الصعب تشخيص حالات الفشل.

في دراسة حديثة نشرت على arXiv، تم اختبار نموذج OpenVLA لتحديد ما إذا كان يمكنه استخلاص معلومات خطية حول الفشل المؤكد في مهام LIBERO مع التأثيرات الناتجة عن تغيير ظروف التصوير. حيث تم الحفاظ على ثبات السياسة المستخدمة طوال التجارب. تم تسجيل التنشيطات الداخلية خلال تنفيذ المهام وتطبيق مراقبين خفيفي الوزن بعد جمع بيانات التنفيذ.

تميز هذا الاختبار بتحدٍ رئيسي تمثل في عدم وضوح الرؤية، حيث أدى ذلك إلى تقليص نسبة نجاح OpenVLA من 57% إلى 17% خلال 100 حالة اختبار لكل شرط. وبفضل التحليل المتعمق، استطاع جهاز الكشف عند الطبقة 16 تحقيق AUROC قدره 0.972 وAUPRC يعادل 0.352، وهو ما يعكس فعالية كبيرة في توقع حالات الفشل خلال أفق زمني قصير.

على الرغم من النتائج الواعدة، إلا أن البحث يبقى محدودًا، حيث لم يتم إثبات الآليات السببية أو القدرة على التعميم عبر المهام المختلفة، أو بناء نظام استرداد قابل للنشر بعدها.

إن هذه النتائج تفتح آفاقًا جديدة لفهم كيفية تعامل النماذج مع التغيرات البيئية وكيفية تحسين تكامل اللغة والرؤية لتحسين أداء الأنظمة الذكية.