أعلن الباحثون عن نتائج دراسة جديدة تتناول الأمان والنزاهة في نماذج قيادة الذكاء الاصطناعي المعتمدة على الرؤية واللغة (Vision-Language-Action أو VLA). حيث رأوا أن هذه النماذج تعاني من ضعف كبير في النزاهة. تم إجراء تحليل لـ 300 استدلال بواسطة نموذج Alpamayo-R1-10B عبر 100 سيناريو متنوع من PhysicalAI-AV.

أبرز ما كشفته الدراسة هو أن فعالية التفكير في هذه النماذج لا تتجاوز 42.5%، مما يعني أن المطابقات بين تسلسل الأسباب وواقع المشهد تحدث أقل من نصف الوقت. كما رصد الباحثون مجموعة من النواقص المثيرة للقلق، مثل عدم كشف النموذج عن 94 مشاة في ثلث المشاهد المتعلقة بالمشاة، بالإضافة إلى هشاشة عالية في مسارات الحركة تصل إلى 97.7% عند إجراء تغييرات بصرية بسيطة.

المثير للدهشة هو أن نسبة التناسق بين النتائج والقرارات كانت 48.3% فقط، مع وجود 53.3% من الاستدلالات تعرضت لانخفاض التناسق، بما في ذلك 37.9% من الحالات التي تدعي التوقف، بينما يستمر النموذج في الحركة.

في إطار هذه النتائج، صاغ الباحثون مفهوم النزاهة بشكل معلوماتي وطوروا معايير للتحقق من نزاهة الكيانات والإجراءات. كما وضعوا إطار عمل مؤلف من أربعة مكونات يهدف إلى تعزيز الأمان في هذه النماذج.

من الواضح أن هذه النتائج تثير تساؤلات حول مدى موثوقية نماذج VLA وتأثيرها على تطبيقات الذكاء الاصطناعي في المستقبل. ما رأيكم في هذه النتائج؟ شاركونا في التعليقات!