تعتبر النماذج اللغوية البصرية-الحركية (VLA) من أحدث الاتجاهات في عالم الذكاء الاصطناعي، إذ توفر القدرة على التحكم في الروبوتات عن طريق التعليمات المدفوعة بالذكاء. ولكن، وفقًا لدراسة جديدة، يبدو أن هذه النماذج قد تكون أكثر تعقيدًا مما تحتاجه المهام الروبوتية البسيطة.

تستند هذه الدراسة إلى مفهوم "الإزالة والاسترجاع" (Drop-Then-Recovery) كأسلوب تحليلِي للكشف عن وفرة الهيكل المعماري داخل نماذج VLA. يتمثل الهدف في تقييم فعالية الإطارات المعمارية للنموذج من خلال حذف بعض الكتل والتأكد من أهمية تلك الكتل المحذوفة في التحكم.

ومن بين التقنيات المستخدمة في هذه الدراسة، تم تقديم مقياس "بوابة الحساسية الافتراضية" (GateProbe) ليقيس المساهمة الفعلية للكتل المحذوفة في أداء المهام الحركية. وبعد إجراء التجارب على عدة معمارية VLA، تم التوصل إلى نتيجة مثيرة: في حين أن الهيكل اللغوي يظهر فائضًا هائلًا يُمكن الاستغناء عنه لمعظم المهام، فإن المسارات البصرية والحركية أقل قدرة على التكيف مع هذه التعديلات.

في نتائج مذهلة، أظهرت التجارب أن إزالة نصف الكتل الأكبر من النموذج اللغوي العميق أدى إلى تحسين الأداء من 95.0% إلى 98.3%، مما يفتح أمامنا أفق إعادة تقييم كيفية تخصيص الموارد في النماذج المستقبلية. هذه الاكتشافات تشير إلى أن التحديات الحالية لا تضغط بشكل كافٍ على فهم التعليمات المعقدة والتواصل الفعّال بين اللغة والرؤية والحركة، مما يستدعي إعادة التفكير في تصميم النماذج القادمة.

للاستزادة، يمكنكم زيارة GitHub. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.