تُعتبر نماذج الرؤية-language-action (VLAs) من أحدث الابتكارات في مجال الروبوتات، حيث ظهرت كأداة قوية لمعالجة مجموعة متنوعة من المهام، بدءًا من الأعمال المنزلية المعقدة وصولاً إلى التفاعل في بيئات مفتوحة. ومع ذلك، تثير طريقة تقييم أداء هذه النماذج الشكوك حول موثوقيتها، حيث يتم الاعتماد غالبًا على نجاحها في تحقيق النتائج النهائية فقط، مما قد يُغفل بعض الجوانب الحيوية مثل الأمان والكفاءة.

في دراسة جديدة نُشرت، تم تسليط الضوء على مجموعة من الفجوات في بروتوكولات التقييم الحالية لنماذج (VLAs). تركز الدراسة، التي استخدمت تحدي BEHAVIOR1K (B1K) كمرجع، على تحليل متعمق لنماذج الذكاء الاصطناعي في مهامها الطويلة، محذرةً من أن الاعتماد على معدلات النجاح العامة قد يؤدي إلى تضخيم الأداء المبلغ عنه.

وخلص الباحثون إلى أن هذه العوامل تؤثر بشكل كبير على قدرة النماذج على العمل داخل البيئات المعقدة والتفاعلية. وعليه، قاموا بطرح مقترحات جديدة لبروتوكولات التقييم التي تحتاج إلى أن تأخذ في الاعتبار الحوادث الفعلية والقياس الدقيق لأداء السياسات المتبعة. هذه الخطوة تُعَدّ أساسية لضمان أن التقنيات المستخدمة ليست فقط فعالة ولكن أيضاً آمنة.

في ختام الدراسة، تناول المؤلفون قيود النماذج الحالية وأكدوا أهمية البحث المستقبلي في هذا المجال لتحديد كيفية تحسين هذه الأنظمة وجعلها أكثر موثوقية في التطبيقات العملية.