في عالم الذكاء الاصطناعي، تسعى ابتكارات جديدة دائماً لتقديم حلول فعالة للمشكلات المعقدة، ومن بين هذه الابتكارات يبرز نموذج LaWAM (Latent World Action Model) الذي يعد نقلة نوعية في مجال التحكم الروبوتي.

عادةً ما تستخدم نماذج الرؤية-اللغة-العمل (Vision-Language-Action models) تدريباً مبدئياً على نطاق واسع مما يتيح للروبوتات القدرة على التحكم في المشهد، لكن هذه النماذج تفتقر غالباً إلى الرؤية المستقبلية حول كيفية تأثير أفعال الروبوت على البيئة المحيطة.

تأتي نماذج العالم-العمل (World Action Models) لتُعالج هذه المشكلة، لكنها تعتمد عادةً على جيل فيديو مُكلف من الناحية الحاسوبية مع تكرار كبير على مستوى البكسل.

لكن نموذج LaWAM يقوم بتغييرات جذرية، حيث يُستخدم أهداف بصرية مضغوطة بدلاً من فيديوهات مُعاد بناؤها. يقوم لاباحثين بتدريب نموذج عملي في الفضاء الكامن لنموذج رؤية أساسي مُسبق، ثم يعيد استخدام جهاز فك الترميز الأمامي للتنبؤ بخصائص الملاحظة المستقبلية لتطور المشهد.

يساعد نموذج LaWAM الروبوتات على اتخاذ قرارات أكثر ذكاءً من خلال توفير فهم عميق للديناميكيات في البيئة. وقد حقق هذا النموذج معدلات نجاح رائدة تتراوح بين 98.6% إلى 91.22% ضمن تجارب معقدة من LIBERO وRoboTwin، مع الحفاظ على زمن استجابة منخفض جداً يصل إلى 187 مللي ثانية لكل تنبؤ.

إن القدرة على تحقيق زمن استجابة أقل بـ24 مرة مقارنةً بنماذج العالم-العمل التقليدية تُبرز الفائدة الكبرى لاستخدام نموذج LaWAM في المهام في العالم الحقيقي، مما يجعله رفيقاً مثالياً للروبوتات في مهامها اليومية.