في عالم يتسارع فيه تطور أنظمة الذكاء الاصطناعي، برزت نماذج رؤية-لغة-عمل (Vision-Language-Action) كتقنيات واعدة تُظهر أداءً متزايدًا في معايير التحكم في الروبوتات. ومع ذلك، تثير هذه الأنظمة تساؤلات جوهرية بشأن مدى قدرتها على دعم اتخاذ القرارات الفيزيائية بناءً على تعميمات دلالية. في هذا السياق، تقوم هذه الورقة النقدية بتفسير كيف أن الفرضية القائلة بأن التعلم الدلالي كافٍ لدعم اتخاذ القرارات الفيزيائية لم يتم التحقق منها بشكل مستقل، بالإضافة إلى عدم إمكانية اختبارها بموجب البروتوكولات الحالية لكل تقييم.
تظهر التحليلات أن معدل نجاح المهام، وهو المقياس الرئيسي للأداء، لا يمكنه تمييز ما بين المصدرين من القدرات: التطابق الدلالي والقرارات الفعلية. وبالتالي، فإن التحسينات المسجلة في الأداء قد تكون نتيجة لتفسيرات متعددة، تشمل التطابق الدلالي، تداخل التوزيع، والتعميم الفيزيائي الحقيقي.
الأكثر من ذلك، تشير الدراسة إلى أن الفجوة الحالية في القدرة على التحقق تعززت من خلال انزلاق السرد، حيث ورثت الأنظمة المتتالية التفسيرات السلبية للأداء دون عزل الآلية السببية وراء هذه التحسينات. من أجل معالجة هذه القيود، تقترح الورقة اتجاهًا بحثيًا جديد يعتمد على تصميمات تقييمية ت introduce controlled variations لقياس المستوى الدلالي والفيزيائي بشكل منفصل.
يمكن لتصميمات كهذه أن تجعل من الممكن نسب الأداء بشكل سببي، دون الحاجة للوصول إلى الطرازات الداخلية، كما تسمح بتقييم دور نماذج اللغة-الرؤية كواجهات دلالية، بدلاً من مصادر ضمنية للكفاءة الفيزيائية. هدفنا ليس في إنكار دور نماذج اللغة-الرؤية في الروبوتات، بل في توضيح الظروف التي يمكن من خلالها تقييم مزاعم التعميم الفيزيائي بشكل معني.
نماذج رؤية-لغة-عمل: هل يمكن التحقق من قدرتها على تنفيذ الاستدلال الفيزيائي؟
تتناول هذه الورقة النقدية القيود الحالية على نماذج رؤية-لغة-عمل وتشدد على عدم إمكانية التحقق من قدرتها على اتخاذ قرارات فعلية بناءً على تعميمات دلالية. الأمر يتطلب إعادة تقييم منهجيات القياس المُتبعة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
