في عالم الروبوتات المتطور، تُعتبر نماذج الفيديو أدوات واعدة لدعم التحكم الذكي في الروبوتات. تمثل الأبحاث الحديثة خطوة جديدة نحو تحسين أداء الروبوتات عبر نموذج جديد يُعرف باسم Video-to-Embodied Robot Action Model (VERA). في هذه الورقة، تم اختبار حدود مقاربة جديدة تتمثل في الحفاظ على نموذج تخطيط الفيديو كما هو، بينما يتم تدريب نموذج ديناميات عكسية (Inverse Dynamics Model) مرتبط بجسم محدد.

هذا الفصل بين النموذجين يتيح عدة فوائد طبيعية؛ فمع الحفاظ على تخطيط الفيديو بعيدا عن كونها موجهة لجسم معين، يمكن تبديل نماذج الفيديو بسهولة دون الحاجة لإعادة تدريب نموذج الديناميات العكسية. كما يمكن تدريب هذا النموذج بشكل مستقل باستخدام بيانات اللعب الذاتي المتاحة.

تقدم الدراسة نموذجاً مغلقاً يدمج بين نموذج عالم الفيديو بلا أفعال ونموذج الديناميات العكسية المخصص. علاوة على ذلك، أثبت تصميم نموذج الديناميات العكسية كفاءة في استخدام البيانات وقابلية للتوسع إلى فضاءات أفعال عالية الأبعاد.

يحقق نموذج VERA أداءً قوياً في مجموعة من التحديات، بما في ذلك التحكم في ذراع الروبوت Panda وعمليات إعادة توجيه مكعب على يد Allegro مع 16 درجة من الحرية. يمكن استخدام نفس نموذج التخطيط عبر عدة أجسام من خلال ربطه مع نماذج ديناميات عكسية محددة للجسم.

تظهر نتائج هذه الدراسة أن التخطيط المعزول مع ترجمة موثوقة من الفيديو إلى الأفعال يمثل مساراً محتملاً نحو التحكم الروبوتي القابل للتعميم عبر الأجسام المختلفة، مما يفتح آفاقًا جديدة في مجال الروبوتات وتطبيقاتها المستقبلية.