مع تزايد الاعتماد على نماذج الرؤية-لغة-عمل (Vision-Language-Action) لتخطيط المسارات الطويلة، يعتبر كيفية تصميم وحدات العالم (World Modules) المساعدة عليها تحديًا مهمًا. تقنيتنا الجديدة المسماة OneWM-VLA تهدف إلى إعادة التفكير في عرض المعلومات البصرية، من خلال تقليص البيانات المعالجة إلى رمز سيميائي واحد لكل إطار.

تمتاز تقنية OneWM-VLA باستخدام أسلوب جمع الانتباه المتكيف (Adaptive Attention Pooling) الذي يمكن من ضغط كل عرض إلى رمز واحد، مما يسهل العملية ويعزز الكفاءة. هذه الطريقة ليست فقط فعّالة، بل أظهرت فعالية محسنة حيث انتقل معدل النجاح من 47.9% إلى 61.3% في اختبارات MetaWorld~MT50.

علاوة على ذلك، سجّلت OneWM-VLA 95.6% على LIBERO-Long مقارنة بـ 85.2% لـ π0، وحققت 60.0% في المهمة طويلة الأمد Fold Cloth باستخدام ذراع Piper الحقيقي، بالتفوق على 20.0% الناتجة عن π0.

هذا البحث يفتح آفاقًا جديدة لفهم البيانات البصرية وكيف يمكن استخدامها بطرق أكثر تكلفة وأقلّ استهلاكًا للموارد، مما يعد خطوة كبيرة نحو تطبيقات أكثر ذكاءً ونجاحًا في المستقبل.