في عالم يتسم بالتطور السريع في مجال الروبوتات، يظهر GEAR-VLA كابتكار ثوري يغير اللعبة. تم تصميم هذا النموذج لفهم كيفية تفاعل الروبوتات مع البيئة المحيطة بها مع الأخذ في الاعتبار الأجسام غير المعروفة وتغيرات الخلفية.
تواجه نماذج الرؤية-language-action (VLA) الحالية تحديات كبيرة عند نشرها في العالم الحقيقي، حيث لا تزال تعاني من صعوبات مع الأجسام التي لم تراها من قبل وكذلك من اختلافات الروبوتات. تتمثل النقطة الأساسية في مشكلة نقص تمثيل موحد للوعي الهندسي للحركة، مما يجعل هذه الأنظمة عرضة للإشراف على المسارات منخفضة المستوى والخصائص ثلاثية الأبعاد غير المتوافقة.
علينا أن نعرف GEAR-VLA، إطار عمل VLA الذي يهدف إلى معالجة هذه التحديات من خلال تقديم تمثيلات حركة واعية هندسياً. يعتمد GEAR-VLA على التعلم المتدرج من الخشن إلى الدقيق، حيث يشتمل على مرحلة تدريب مسبق متعددة المصادر، مما يمكّن النموذج من فهم الحركة بشكل أفضل قبل ربط الرموز الفعلية لعلم الحركة بخبير الفعل المستمر.
تمكن GEAR-VLA أيضاً من إجراء تكامل ثلاثي الأبعاد متمايز سياقياً عبر محاذاة بنية ثلاثية الأبعاد قابلة للتدريب مع التمثيل VLA، مع تجميد المسار البصري الأصلي للنموذج.
المثير للاهتمام هو كيفية مشاركة هذا التمثيل عبر الروبوتات المختلفة، حيث يعمل GEAR-VLA على تحسين الاختلافات الروبوتية من خلال وضع حالاتها بعناية وأفعالها غير المعتمدة على هيئتها، مما يقصر الفروق على واجهة منخفضة المستوى.
بفضل التجارب الشاملة، أثبت GEAR-VLA أنه محرك قوي لأداء الروبوتات، حيث حقق نتائج مذهلة في عدة اختبارات بما في ذلك LIBERO وLIBERO-Plus وRoboTwin 2.0، حيث وصل إلى معدل نجاح 85.9% على AgileX و81.0% على تجارب غير مشهورة، بالإضافة إلى 90.1% على معيار الإمساك العام مع 6،360 تجربة و212 جسم غير معروف.
إذا كنت مهتمًا بمزيد من التفاصيل وتحديثات الكود والنماذج، يمكنك زيارة رابط GitHub الخاص بالمشروع.
ثورة في robotics: تعرف على GEAR-VLA وتمثيلات الحركة الوعي الهندسي
تمثل GEAR-VLA طفرة نوعية في عالم التحركات الروبوتية بفضل تركيزها على تمثيلات الحركة الوعي الهندسي. هذا الإطار الجديد يعد بمستقبل واعد للروبوتات في التعامل مع الأجسام غير المألوفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
