اكتشاف ثورة جديدة في السياسات اللغوية المرئية: تقنية VLA-AD لتقليل الحجم وزيادة الكفاءة!

Q: ما هو موضوع مقال "اكتشاف ثورة جديدة في السياسات اللغوية المرئية: تقنية VLA-AD لتقليل الحجم وزيادة الكفاءة!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "اكتشاف ثورة جديدة في السياسات اللغوية المرئية: تقنية VLA-AD لتقليل الحجم وزيادة الكفاءة!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في السنوات الأخيرة، أظهرت السياسات الضخمة للغة المرئية-العمليات (VLA) أداءً مبهراً في التحكم بالروبوتات، لكن حجمها الكبير وتكاليف الاستدلال ظلت عقبات رئيسية أمام استخدامها في التحكم في الوقت الحقيقي. نقدم لكم تقنية جديدة تُعرف باسم VLA-AD، وهي إطار عمل لاستخلاص المعرفة يستخدم نموذج لغة مرئية كإشراف دلالي خارجي لنقل المعرفة من معلم VLA كبير إلى سياسات خفيفة الوزن.

بدلاً من الاعتماد فقط على تقليد الإجراءات منخفضة المستوى، يعزز VLA-AD الأهداف المستهدفة في 7 درجات من الحرية (7-DoF) للإجراءات التي يقدمها المعلم بإرشادات دلالية عالية المستوى، تتضمن مؤشرات مراحل المهام ووصف اتجاه التشغيل متعدد الإطارات. تُستخدم هذه الإشارات الثانوية فقط خلال فترة التدريب: أثناء الاختبار، تعمل السياسة الخفيفة بشكل مستقل، دون الحاجة إلى المعلم VLA أو نموذج اللغة المرئية.

تم تقييم VLA-AD على ثلاث مجموعات من معايير LIBERO، واستخدام OpenVLA-7B كمعلم أدى إلى إنتاج نموذج خفيف الوزن بحجم 158 مليون معلمة، مما يحقق تقليصاً قدره 44 مرة في حجم النموذج مع الحفاظ على أداء يقترب بنسبة 0.27% فقط من معلمها. يمكن أن تعمل السياسة الناتجة بمعدل 12.5 هرتز على بطاقة RTX 4090، مما يحقق تسريعًا في الاستدلال بمعدل 3.28 مرة مقارنة بـ OpenVLA-7B.

علاوة على ذلك، تظهر النتائج أن نفس تقنية التحويل الدلالي تتكيف مع معلم آخر بحجم 4 مليارات معلمة، حيث تتجاوز السياسة الخفيفة أداء المعلم في مجموعتين وتبقى ضمن 0.53% من النتائج في تحدي libero_goal. تشير التحليلات الإضافية إلى أن الإشراف على مستوى المرحلة والتوجيهات الاتجاهية متعددة الإطارات تجعل النموذج الخفيف أقل حساسية للتغييرات المزعجة من المعلم، مثل التغييرات غير الصحيحة في مؤشرات الجر المفرط.

بصفة عامة، تُظهر VLA-AD أن الإشراف الدلالي الخارجي من نماذج اللغة المرئية يمكن أن يحسن بشكل كبير من كفاءة وموثوقية وقابلية تطبيق استخلاص السياسات في الروبوتات.

اكتشاف ثورة جديدة في السياسات اللغوية المرئية: تقنية VLA-AD لتقليل الحجم وزيادة الكفاءة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

أوبن أيه آي تستحوذ على شركة هيرو لتكنولوجيا التمويل الشخصي: خطوة نحو التخطيط المالي الذكي!