حققت نماذج رؤية-لغة-عمل (VLA) تقدمًا ملحوظًا في العقد الأخير، ولكن لا يزال يواجه هذا المجال تحديًا مركزيًا يتطلب مزيدًا من البحث: وهي البنية التحتية للبيانات التي تدعم التعلم المجسد. في دراسة شاملة استعرضناها، نجد أن التقدم المستقبلي في VLA يعتمد بشكل أكبر على تصميم مشترك لمحركات بيانات ذات دقة عالية وبروتوكولات تقييم منظمة بدلاً من الاعتماد فقط على بنى النماذج.

تتمحور دراستنا حول ثلاثة محاور رئيسية: مجموعات البيانات، المقاييس، ومحركات البيانات.

**1. مجموعات البيانات:**
قمنا بتصنيف مجموعات البيانات الواقعية والاصطناعية بناءً على تنوع التجسيد، وتركيب الموديلات، وصياغة مجالات العمل. تبين أن هناك توازنًا مستمرًا بين التكلفة والدقة، وهو ما يقيد بشكل جذري قدرة جمع البيانات على نطاق واسع.

**2. المقاييس:**
تحلل دراستنا تعقيد المهام وبنية البيئة بشكل مشترك، حيث تظهر الفجوات الهيكلية في التعميم المركب وتقييم التفكير على المدى الطويل التي تفشل البروتوكولات الحالية في معالجتها.

**3. محركات البيانات:**
نستكشف أشكالًا من البرمجة القائمة على المحاكاة، وإعادة بناء الفيديو، وتوليد المهام الآلي، ونشخص القيود المشتركة في أسلوب التجسيد والنقل من المحاكاة إلى الواقع.

عند تجميع هذه التحليلات، نبرز أربعة تحديات مفتوحة: توافق التمثيل، والإشراف متعدد الوسائط، وتقييم التفكير، وتوليد البيانات القابل للتوسع. نرى أن معالجة هذه التحديات تتطلب اعتبار بنية البيانات قضية بحث ذات أهمية قصوى بدلاً من كونها مجرد مسألة ثانوية.