في عالم الذكاء الاصطناعي، تُعتبر نماذج رؤية اللغة والحركة (Vision-Language-Action - VLA) من الأدوات المتقدمة، إلا أن تطور هذه النماذج يواجه عقبة كبيرة تتمثل في عدم كفاية البيانات المتخصصة، بما في ذلك الثلاثيات المكونة من الملاحظات والتعليمات والأفعال.

تتحدث الأبحاث الأخيرة عن معضلة تخص التداخل بين هدفين تعليميين مختلفين: الأول هو اكتساب الكفاءة البدنية (كيفية الحركة) والثاني هو تحقيق التوافق الدلالي (ماذا نفعل). ما يهم بشكل خاص هو أن الهدف الثاني فقط هو الذي يتطلب إشرافًا لغويًا.

استنادًا إلى هذه الفرضية، تم اقتراح إطار عمل جديد يُعرف باسم "التدريب غير المرتبط بالمهام" (Task-Agnostic Pretraining - TAP). يتكون هذا الإطار من مرحلتين: الأولى تركز على تعلم الأعمدة الحركية القابلة للنقل من بيانات تفاعلية غير موسومة، بما في ذلك المسارات المهملة ولعب الروبوت ذاتيًا، والمرحلة الثانية تربط هذه المعرفة باللغة باستخدام بيانات خبير محدودة.

أظهرت الاختبارات على معيار SIMPLER أن النموذج الجديد TAP يحقق مستويات مشابهة للنماذج المدربة على أكثر من 1 مليون مسار خبير، ولكنه يستخدم بيانات موسومة أقل بمئات المرات، مما يؤدي إلى زيادة تصل إلى 10% في الأداء مقارنة بأساليب الاستنساخ السلوكي التقليدية.

ولقد أثبتت التجارب على منصة WidowX في العالم الحقيقي أن النظام TAP يحتفظ بمعدل نجاح صافٍ يبلغ 25% في ظل تغييرات جوهرية في الكاميرا، بينما تهاوت الحلول المعتمدة على الإنترنت إلى 0%. يُظهر هذا أن التدريب غير المرتبط بالمهام يُنتج تمثيلات حركية قابلة للنقل وقوية، مما يفتح الطريق نحو ذكاء اصطناعي متكامل.