في السنوات الأخيرة، أظهرت [السياسات](/tag/السياسات) الضخمة للغة المرئية-العمليات ([VLA](/tag/vla)) أداءً مبهراً في [التحكم](/tag/التحكم) بالروبوتات، لكن حجمها الكبير وتكاليف [الاستدلال](/tag/الاستدلال) ظلت عقبات رئيسية أمام استخدامها في [التحكم](/tag/التحكم) في الوقت الحقيقي. نقدم لكم [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف باسم [VLA](/tag/vla)-AD، وهي إطار [عمل](/tag/عمل) لاستخلاص [المعرفة](/tag/المعرفة) يستخدم [نموذج [لغة](/tag/لغة) مرئية](/tag/[نموذج](/tag/نموذج)-[لغة](/tag/لغة)-مرئية) كإشراف دلالي خارجي لنقل [المعرفة](/tag/المعرفة) من معلم [VLA](/tag/vla) كبير إلى [سياسات](/tag/سياسات) خفيفة الوزن.

بدلاً من الاعتماد فقط على تقليد الإجراءات منخفضة المستوى، يعزز [VLA](/tag/vla)-AD الأهداف المستهدفة في 7 درجات من الحرية (7-DoF) للإجراءات التي يقدمها المعلم بإرشادات [دلالية](/tag/دلالية) عالية المستوى، تتضمن مؤشرات مراحل المهام ووصف اتجاه التشغيل متعدد الإطارات. تُستخدم هذه الإشارات الثانوية فقط خلال فترة [التدريب](/tag/التدريب): أثناء الاختبار، تعمل السياسة الخفيفة بشكل مستقل، دون الحاجة إلى المعلم [VLA](/tag/vla) أو [نموذج اللغة](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)) المرئية.

تم [تقييم](/tag/تقييم) [VLA](/tag/vla)-AD على ثلاث مجموعات من [معايير](/tag/معايير) LIBERO، واستخدام OpenVLA-7B كمعلم أدى إلى إنتاج [نموذج](/tag/نموذج) خفيف الوزن بحجم 158 مليون معلمة، مما يحقق تقليصاً قدره 44 مرة في حجم النموذج مع الحفاظ على [أداء](/tag/أداء) يقترب بنسبة 0.27% فقط من معلمها. يمكن أن تعمل السياسة الناتجة بمعدل 12.5 هرتز على بطاقة RTX 4090، مما يحقق تسريعًا في [الاستدلال](/tag/الاستدلال) بمعدل 3.28 مرة مقارنة بـ OpenVLA-7B.

علاوة على ذلك، تظهر النتائج أن نفس [تقنية التحويل](/tag/[تقنية](/tag/تقنية)-التحويل) الدلالي تتكيف مع معلم آخر بحجم 4 مليارات معلمة، حيث تتجاوز السياسة الخفيفة [أداء](/tag/أداء) المعلم في مجموعتين وتبقى ضمن 0.53% من النتائج في [تحدي](/tag/تحدي) libero_goal. تشير التحليلات الإضافية إلى أن الإشراف على مستوى المرحلة والتوجيهات الاتجاهية متعددة الإطارات تجعل النموذج الخفيف أقل [حساسية](/tag/حساسية) للتغييرات المزعجة من المعلم، مثل التغييرات غير الصحيحة في مؤشرات الجر المفرط.

بصفة عامة، تُظهر [VLA](/tag/vla)-AD أن الإشراف الدلالي الخارجي من [نماذج [اللغة](/tag/اللغة) المرئية](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-المرئية) يمكن أن يحسن بشكل كبير من [كفاءة](/tag/كفاءة) وموثوقية وقابلية تطبيق استخلاص [السياسات](/tag/السياسات) في [الروبوتات](/tag/الروبوتات).