في السنوات الأخيرة، أظهرت [السياسات](/tag/السياسات) الضخمة للغة المرئية-العمليات ([VLA](/tag/vla)) أداءً مبهراً في [التحكم](/tag/التحكم) بالروبوتات، لكن حجمها الكبير وتكاليف [الاستدلال](/tag/الاستدلال) ظلت عقبات رئيسية أمام استخدامها في [التحكم](/tag/التحكم) في الوقت الحقيقي. نقدم لكم [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تُعرف باسم [VLA](/tag/vla)-AD، وهي إطار [عمل](/tag/عمل) لاستخلاص [المعرفة](/tag/المعرفة) يستخدم [نموذج [لغة](/tag/لغة) مرئية](/tag/[نموذج](/tag/نموذج)-[لغة](/tag/لغة)-مرئية) كإشراف دلالي خارجي لنقل [المعرفة](/tag/المعرفة) من معلم [VLA](/tag/vla) كبير إلى [سياسات](/tag/سياسات) خفيفة الوزن.
بدلاً من الاعتماد فقط على تقليد الإجراءات منخفضة المستوى، يعزز [VLA](/tag/vla)-AD الأهداف المستهدفة في 7 درجات من الحرية (7-DoF) للإجراءات التي يقدمها المعلم بإرشادات [دلالية](/tag/دلالية) عالية المستوى، تتضمن مؤشرات مراحل المهام ووصف اتجاه التشغيل متعدد الإطارات. تُستخدم هذه الإشارات الثانوية فقط خلال فترة [التدريب](/tag/التدريب): أثناء الاختبار، تعمل السياسة الخفيفة بشكل مستقل، دون الحاجة إلى المعلم [VLA](/tag/vla) أو [نموذج اللغة](/tag/[نموذج](/tag/نموذج)-[اللغة](/tag/اللغة)) المرئية.
تم [تقييم](/tag/تقييم) [VLA](/tag/vla)-AD على ثلاث مجموعات من [معايير](/tag/معايير) LIBERO، واستخدام OpenVLA-7B كمعلم أدى إلى إنتاج [نموذج](/tag/نموذج) خفيف الوزن بحجم 158 مليون معلمة، مما يحقق تقليصاً قدره 44 مرة في حجم النموذج مع الحفاظ على [أداء](/tag/أداء) يقترب بنسبة 0.27% فقط من معلمها. يمكن أن تعمل السياسة الناتجة بمعدل 12.5 هرتز على بطاقة RTX 4090، مما يحقق تسريعًا في [الاستدلال](/tag/الاستدلال) بمعدل 3.28 مرة مقارنة بـ OpenVLA-7B.
علاوة على ذلك، تظهر النتائج أن نفس [تقنية التحويل](/tag/[تقنية](/tag/تقنية)-التحويل) الدلالي تتكيف مع معلم آخر بحجم 4 مليارات معلمة، حيث تتجاوز السياسة الخفيفة [أداء](/tag/أداء) المعلم في مجموعتين وتبقى ضمن 0.53% من النتائج في [تحدي](/tag/تحدي) libero_goal. تشير التحليلات الإضافية إلى أن الإشراف على مستوى المرحلة والتوجيهات الاتجاهية متعددة الإطارات تجعل النموذج الخفيف أقل [حساسية](/tag/حساسية) للتغييرات المزعجة من المعلم، مثل التغييرات غير الصحيحة في مؤشرات الجر المفرط.
بصفة عامة، تُظهر [VLA](/tag/vla)-AD أن الإشراف الدلالي الخارجي من [نماذج [اللغة](/tag/اللغة) المرئية](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-المرئية) يمكن أن يحسن بشكل كبير من [كفاءة](/tag/كفاءة) وموثوقية وقابلية تطبيق استخلاص [السياسات](/tag/السياسات) في [الروبوتات](/tag/الروبوتات).
اكتشاف ثورة جديدة في السياسات اللغوية المرئية: تقنية VLA-AD لتقليل الحجم وزيادة الكفاءة!
تمثل تقنية VLA-AD قفزة نوعية في مجال الذكاء الاصطناعي، حيث توظف نماذج اللغة المرئية لتحويل سياسات الروبوتات العملاقة إلى نماذج خفيفة. تتيح هذه التقنية تقليل الحجم وزيادة السرعة مع الحفاظ على الأداء المتميز.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
