في خطوة مبتكرة نحو مستقبل الذكاء الاصطناعي، قدّم باحثون نموذج X-WAM، الذي يمثل نموذجًا موحدًا للعالم الأربعة الأبعاد. يجمع هذا النموذج بين تنفيذ الحركات في الروبوتات والتوليد عالي الدقة للعالم الرقمي في إطار عمل واحد.

تواجه النماذج السابقة مثل UWM (Unified World Models) تحديات كبيرة، حيث تقتصر على نموذج المساحات الثنائية الأبعاد (2D) فقط، مما يجعلها غير قادرة على تحقيق التوازن بين فعالية الحركة وجودة نمذجة العالم. ولكن مع X-WAM، يتم تجاوز هذه القيود عبر استخدام نماذج انتشار الفيديو المدربة مسبقًا لتوقع العالم المستقبلي عن طريق إنتاج مقاطع فيديو متعددة الأبعاد RGB-D.

تعتمد العملية على تكييف هيكلي خفيف الوزن، حيث يتم تكرار الكتل النهائية لنموذج Transformer المسبق التدريب إلى فرع متخصص لتوقع العمق، مما يساهم في إعادة بناء المعلومات المكانية المستقبلية بكفاءة.

إضافة إلى ذلك، تم ابتكار تقنية تُعرف بـ Asynchronous Noise Sampling (ANS)، التي تهدف إلى تحسين جودة الإنتاج وكفاءة فك ترميز الحركة بشكل مشترك. تعتمد هذه التقنية على جدول تخلّص غير متزامن خلال مرحلة الاستدلال، مما يسمح بفك الترميز السريع للحركات مع خطوات أقل، بينما يخصص كامل تسلسل الخطوات لخلق فيديو بجودة عالية.

بعد تدريب النموذج على أكثر من 5800 ساعة من بيانات الروبوتات، استطاع X-WAM تحقيق معدلات نجاح تصل إلى 79.2% و90.7% في اختبارات RoboCasa وRoboTwin 2.0، مع إنتاج تركيبات أربعة الأبعاد ذات جودة عالية تفوق الأساليب الحالية في كل من الجوانب البصرية والهندسية.

تعتبر هذه الابتكارات في نموذج X-WAM خطوة كبيرة نحو تحسين تجربة التفاعل مع العالم الرقمي، مما يدفع بنا إلى تساؤل مهم: كيف يمكن أن يؤثر هذا النموذج على مستقبل الروبوتات والذكاء الاصطناعي برمته؟ شاركونا آراءكم في التعليقات!