في السنوات الأخيرة، أظهرت السياسات الضخمة للغة المرئية-العمليات (VLA) أداءً مبهراً في التحكم بالروبوتات، لكن حجمها الكبير وتكاليف الاستدلال ظلت عقبات رئيسية أمام استخدامها في التحكم في الوقت الحقيقي. نقدم لكم تقنية جديدة تُعرف باسم VLA-AD، وهي إطار عمل لاستخلاص المعرفة يستخدم نموذج لغة مرئية كإشراف دلالي خارجي لنقل المعرفة من معلم VLA كبير إلى سياسات خفيفة الوزن.
بدلاً من الاعتماد فقط على تقليد الإجراءات منخفضة المستوى، يعزز VLA-AD الأهداف المستهدفة في 7 درجات من الحرية (7-DoF) للإجراءات التي يقدمها المعلم بإرشادات دلالية عالية المستوى، تتضمن مؤشرات مراحل المهام ووصف اتجاه التشغيل متعدد الإطارات. تُستخدم هذه الإشارات الثانوية فقط خلال فترة التدريب: أثناء الاختبار، تعمل السياسة الخفيفة بشكل مستقل، دون الحاجة إلى المعلم VLA أو نموذج اللغة المرئية.
تم تقييم VLA-AD على ثلاث مجموعات من معايير LIBERO، واستخدام OpenVLA-7B كمعلم أدى إلى إنتاج نموذج خفيف الوزن بحجم 158 مليون معلمة، مما يحقق تقليصاً قدره 44 مرة في حجم النموذج مع الحفاظ على أداء يقترب بنسبة 0.27% فقط من معلمها. يمكن أن تعمل السياسة الناتجة بمعدل 12.5 هرتز على بطاقة RTX 4090، مما يحقق تسريعًا في الاستدلال بمعدل 3.28 مرة مقارنة بـ OpenVLA-7B.
علاوة على ذلك، تظهر النتائج أن نفس تقنية التحويل الدلالي تتكيف مع معلم آخر بحجم 4 مليارات معلمة، حيث تتجاوز السياسة الخفيفة أداء المعلم في مجموعتين وتبقى ضمن 0.53% من النتائج في تحدي libero_goal. تشير التحليلات الإضافية إلى أن الإشراف على مستوى المرحلة والتوجيهات الاتجاهية متعددة الإطارات تجعل النموذج الخفيف أقل حساسية للتغييرات المزعجة من المعلم، مثل التغييرات غير الصحيحة في مؤشرات الجر المفرط.
بصفة عامة، تُظهر VLA-AD أن الإشراف الدلالي الخارجي من نماذج اللغة المرئية يمكن أن يحسن بشكل كبير من كفاءة وموثوقية وقابلية تطبيق استخلاص السياسات في الروبوتات.
اكتشاف ثورة جديدة في السياسات اللغوية المرئية: تقنية VLA-AD لتقليل الحجم وزيادة الكفاءة!
تمثل تقنية VLA-AD قفزة نوعية في مجال الذكاء الاصطناعي، حيث توظف نماذج اللغة المرئية لتحويل سياسات الروبوتات العملاقة إلى نماذج خفيفة. تتيح هذه التقنية تقليل الحجم وزيادة السرعة مع الحفاظ على الأداء المتميز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
