أعلن الباحثون عن نتائج [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تتناول [الأمان](/tag/الأمان) والنزاهة في [نماذج](/tag/نماذج) [قيادة الذكاء الاصطناعي](/tag/[قيادة](/tag/قيادة)-الذكاء-الاصطناعي) المعتمدة على [الرؤية واللغة](/tag/[الرؤية](/tag/الرؤية)-واللغة) (Vision-Language-Action أو [VLA](/tag/vla)). حيث رأوا أن هذه [النماذج](/tag/النماذج) تعاني من ضعف كبير في [النزاهة](/tag/النزاهة). تم إجراء [تحليل](/tag/تحليل) لـ 300 [استدلال](/tag/استدلال) بواسطة [نموذج](/tag/نموذج) Alpamayo-R1-10B [عبر](/tag/عبر) 100 سيناريو متنوع من PhysicalAI-AV.

أبرز ما كشفته [الدراسة](/tag/الدراسة) هو أن فعالية [التفكير](/tag/التفكير) في هذه [النماذج](/tag/النماذج) لا تتجاوز 42.5%، مما يعني أن المطابقات بين تسلسل الأسباب وواقع المشهد تحدث أقل من نصف الوقت. كما [رصد](/tag/رصد) الباحثون مجموعة من النواقص المثيرة للقلق، مثل عدم [كشف](/tag/كشف) النموذج عن 94 مشاة في ثلث المشاهد المتعلقة بالمشاة، بالإضافة إلى هشاشة عالية في مسارات [الحركة](/tag/الحركة) تصل إلى 97.7% عند إجراء [تغييرات](/tag/تغييرات) بصرية بسيطة.

المثير للدهشة هو أن نسبة [التناسق](/tag/التناسق) بين النتائج والقرارات كانت 48.3% فقط، مع وجود 53.3% من الاستدلالات تعرضت لانخفاض التناسق، بما في ذلك 37.9% من الحالات التي تدعي التوقف، بينما يستمر النموذج في [الحركة](/tag/الحركة).

في إطار هذه النتائج، صاغ الباحثون مفهوم [النزاهة](/tag/النزاهة) بشكل معلوماتي وطوروا [معايير](/tag/معايير) للتحقق من نزاهة الكيانات والإجراءات. كما وضعوا إطار [عمل](/tag/عمل) مؤلف من أربعة مكونات يهدف إلى تعزيز [الأمان](/tag/الأمان) في هذه [النماذج](/tag/النماذج).

من الواضح أن هذه النتائج تثير تساؤلات حول مدى [موثوقية](/tag/موثوقية) [نماذج VLA](/tag/[نماذج](/tag/نماذج)-vla) وتأثيرها على [تطبيقات الذكاء الاصطناعي](/tag/[تطبيقات](/tag/تطبيقات)-الذكاء-الاصطناعي) في المستقبل. ما رأيكم في هذه النتائج؟ شاركونا في [التعليقات](/tag/التعليقات)!