مع تقدم التكنولوجيا، أصبحت نماذج رؤية اللغة والعمل (Vision-Language-Action Models) تلعب دوراً محورياً في تحسين أداء الروبوتات. لكن كانت تُواجه هذه النماذج تحدياً كبيراً، وهو عدم توافق إحداثيات الصور التي تعتمد عليها مع الهيكل الهندسي المعاير لكاميرات الروبوتات.
لحل هذه المشكلة، تم تقديم جهاز G$^3$VLA، الذي يعمل على دمج الهيكل المعاير في تدفق البيانات المرئية لنموذج VLA المدرب مسبقاً دون تعديل مساحة العمل أو هدف التقليد. يعتمد G$^3$VLA على مكونات متطورة تشمل تبديلات شعاعية مشروطة بالداخل (intrinsic-conditioned ray embeddings) وترميز موضع تصويري (Projective Positional Encoding - PRoPE) ودمج عابر من وجهات النظر المتعددة.
هذا الجهاز يقدم إشرافاً هندسياً إما من خرائط نقاط حقيقية عندما تكون متاحة، أو من تنبؤات معلم (teacher) ذكي (confidence-gated) $π^3$X، مما يجعل الحاجة إلى مستشعرات العمق أو التعليقات اليدوية غير ضرورية.
نفذ على نظام $π_0$، يحقق G$^3$VLA مكاسب ملحوظة عبر مجموعات LIBERO، RoboCasa24، وRoboTwin2.0، بالإضافة إلى إعدادات الروبوتات الحقيقية. وقد أظهرت النتائج أن تحسينات الأداء كانت أكبر في المهام الحساسة للفضاء والأجسام.
بالإضافة إلى ذلك، تمت المصادقة على النتائج باستخدام نظام $π_{0.5}$ وGR00T 1.5، مما يشير إلى أن نقل المعرفة الهندسية يكون أكثر فعالية عندما تتاح الرموز المعالجة الهندسية وصولاً مباشرًا إلى مسار توليد الحركة.
لمزيد من المعلومات، تفضلوا بزيارة صفحة المشروع هنا.
ما رأيكم في هذا الابتكار الثوري؟ هل تعتقدون أن مثل هذه التقنيات ستغير مستقبل الروبوتات؟ شاركونا في التعليقات!
جهاز G$^3$VLA: ثورة في نماذج رؤية اللغة والعمل للروبوتات!
يقدم جهاز G$^3$VLA حلاً مبتكرًا لمشكلة عدم توافق معالجة الصور في الروبوتات، مما يعزز من دقة الأداء وتفاعل الروبوتات مع البيئة. تركيبه الفريد يجمع بين دقة المعلومات البصرية والهياكل الهندسية لتوفير أداء متفوق!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
