في واحدة من أهم التطورات في مجال الذكاء الاصطناعي، تم طرح نماذج اللغة العالمية (World-Language-Action Models) كنموذج جديد من نماذج الأساس المتمثل بهيئة تفكيرية. تعتمد هذه النماذج على استقبال التعليمات النصية والصور وحالات الروبوتات كمدخلات، مما يمكّنها من التنبؤ بالمهام الفرعية، وصور الأهداف الفرعية، وإجراءات الروبوتات بشكل متكامل.

ما يميز نماذج اللغة العالمية (WLA) هو كونها تعتمد على نموذج Transformer التلقائي (autoregressive Transformer) بدلاً من نموذج الديفيوشن ثنائي الاتجاه، مما يمنحها القدرة على التنبؤ بالشكل التالي، الذي يتضمن النية النصية بمستوى دلالي ونماذج ديناميكية فيزيائية دقيقة.

تقوم النماذج بتعليم الأبعاد الفيزيائية من خلال هدف نمذجة العالم المعتمد على خبير متخصص، مما يسهل عملية التعرف على علاقة الحالة بالإجراء بالنسبة للخبير في إجراء المهام. بالإضافة إلى ذلك، تستخدم WLA استعلامات ذاتية لمزامنة تنبؤ العالم مع توليد الإجراءات، مما يتيح توسيع القدرة على التحكم في الروبوتات.

ومع وجود 2 مليار معامل نشط، يحقق نموذج WLA-0 أداءً مذهلاً يصل إلى 40 مللي ثانية لكل استدلال باستخدام معالج NVIDIA RTX 5090. وقد أظهرت التقييمات في البيئات الحقيقية والمحاكاة أن النموذج يحقق أفضل نتائج في التعلم متعدد المهام والمستدام، حيث حقق معدل نجاح يصل إلى 92.94% على RoboTwin2.0 Clean و56.5% على RMBench.

الأمل يتزايد أيضًا في قدرة هذا النموذج على تعلم مهام جديدة مباشرة من مقاطع الفيديو الروبوتية المتنوعة دون الحاجة إلى توضيحات عن الإجراءات، مما يفتح آفاقًا جديدة لتطبيقات الذكاء الاصطناعي في العالم الحقيقي.