شهدت نماذج الرؤية واللغة والعمل (Vision-Language-Action Models) تقدمًا ملحوظًا في تقنيات المناورة الروبوتية، ولكن كان من الصعب مقارنة تأثيرات أنظمة البيانات المسبقة المختلفة بسبب اختلاف الهياكل والمجالات الإجرائية. هنا يأتي دور VLAFlow، الإطار المبتكر الذي يسعى لتوحيد المقاربات المختلفة لتدريب هذه النماذج.
يعتمد VLAFlow على مجموعة بيانات متنوعة، تُعرف باسم OXEMix، والتي تحتوي على نحو 5000 ساعة من البيانات المجمعة من عدة مصادر مثل DROID وOpenX-Embodiment وOpenX-Augmented وRoboCOIN. يستعرض الإطار أربعة أنماط تدريب مختلفة، بما في ذلك نموذج الحركة فقط (MindPI) والتدريب المشرف لغويًا (MindLPI) والتوافق اللاتيني المستقبلي (MindWPI) وتجمعها (MindLWPI).
أظهرت التجارب على مجموعات بيانات LIBERO وLIBERO-Plus وSimplerEnv أن التدريب باستخدام الحركة فقط حسّاس لوجود بيانات غير متجانسة. بينما يساعد الإشراف اللغوي على الحفاظ على عموميات الرؤية واللغة، فإن التوافق اللاتيني المستقبلي يعزز نمذجة انتقال الحالة والنتائج الحركية. وبفضل دمج كلا الإشارتين، حققت MindLWPI أداءً منتقلًا أكثر استقرارًا عبر المعايير.
تدل هذه النتائج على أهمية الرؤية المكانية الخاصة بالعمل: حيث تُعزز التمثيلات اللغوية واللاتينية المستقبلية من ثبات الإشراف على الحركة غير المتجانسة وتسهيل نقله. إن هذا الإطار يعدّ خطوة كبيرة نحو تحسين قدرة الروبوتات على التفاعل بذكاء مع محيطها، ويشير إلى مستقبل واعد لحلول روبوتية أكثر كفاءة وابتكارًا.
VLAFlow: إطار تدريبي موحد لنماذج الرؤية واللغة والعمل – ثورة في الروبوتات!
يقدم VLAFlow إطاراً جديداً لتدريب نماذج الرؤية واللغة والعمل، مما يسهم في تحسين تفاعل الروبوتات مع بيئتها. النتائج تظهر أهمية التنسيق بين البيانات اللغوية والحركية لتعزيز الأداء العام.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
