تعتبر نماذج العالم المدمجة (Embodied World Models) من الابتكارات الرائدة في مجال الذكاء الاصطناعي، حيث تعمل على توقع الملاحظات المستقبلية بناءً على الإجراءات التي يتخذها الوكيل. لكن التحديات الكبيرة تظهر عندما يتعلق الأمر بالتجسيدات المعقدة، حيث تكون فضاءات الإجراءات عالية الأبعاد وصعبة التحديد. على سبيل المثال، يتطلب التحكم الدقيق في وكيل بشري تحديد حركة كل مفصل بدقة.

تؤدي هذه التعقيدات إلى صعوبة التحكم في نموذج العالم مما يجعل التخطيط باستخدام أساليب البحث مثل (CEM) معقدًا وغير فعّال في حالة الأبعاد العالية. ولتجاوز هذه العقبة، تم تطوير سياسة خفيفة الوزن تربط بين الإجراءات عالية المستوى وتسلسلات من الإجراءات منخفضة المستوى، ما يؤدي إلى إنتاج نموذج عالم مرفوع يمكنه التنبؤ بتسلسلات من الملاحظات المستقبلية من إجراء عالي المستوى واحد.

تم تنفيذ هذا الإطار في تجسيد يشبه الإنسان، حيث تم تعريف فضاء الإجراءات عالية المستوى كمجموعة صغيرة من نقاط الطرق ثنائية الأبعاد (2D waypoints) المحددة على إطار الملاحظة الحالي، حيث يتم تحديد كل نقطة كهدف قريب لمفصل من المفاصل (الحوض، الرأس، الأيدي). تعتبر نقاط الطرق منخفضة الأبعاد وسهلة التفسير بصريًا، مما يسهل تحديدها يدويًا أو البحث عنها.

أظهرت النتائج أن نموذج العالم المرفوع يتفوق بشكل كبير على البحث المباشر في فضاء المفاصل منخفض المستوى، حيث أظهرت التجارب انخفاض متوسط خطأ المفاصل بمقدار 3.8 مرات مقارنةً بالهدف، بينما يبقى أكثر كفاءة من حيث الحساب وقادرًا على التعميم في البيئات التي لم يتعرض لها النموذج من قبل.