في عالم الذكاء الاصطناعي، شهدت نماذج الجوانب المتعددة (Multimodal Foundation Models) تقدمًا ملحوظًا، لكن لا تزال تعاني من صعوبات كبيرة في الإدراك المكاني عند التعامل مع العالم الفيزيائي. يُعتبر التحول من الملاحظات الذاتية (egocentric observations) إلى تمثيل مكاني عالمي (allocentric spatial representation) أحد العقبات الرئيسية.

لذا، يُقدم باحثو الذكاء الاصطناعي الابتكار الجديد شنا AlloSpatial، وهو إطار مبتكر يعزز الإدراك المكاني في نماذج الجذور (Foundation Models). يُدخل AlloSpatial تقنية تُعرف بـ World2Mind، وهي أدوات تعلم الإدراك المعرفي التي تحول الملاحظات الذاتية إلى معايير مكانيّة مهيكلة، مثل أشجار الافتقار المكاني (Allocentric-Spatial Trees) وخرائط الطرق التي تدعم استعلام هياكل الأجسام، والعلاقات الهندسية، والقدرة على المرور، والمسارات.

لتعزيز موثوقية هذه المعايير تحت ظروف إعادة بناء ضوضائية وبيانات بصرية غامضة، تم إدخال آلية تسمي Harness للإدراك المكاني، والتي تحكم الحكم على استخدام الأدوات وجمع المؤشرات بشكل مستقل عن الوضع وعقد تعاون بين الهندسة والدلالات.

تم تصميم إطار AlloSpatial ليعمل كجزء من نموذج Qwen3-VL عبر تعلم التعزيز البارد (cold-start reinforcement learning) مع مكافأة على مستوى المسار، مما يسمح بفاعلية أكبر في معالجة المعلومات.

أظهرت التجارب التي تمت على VSI-Bench وMindCube أن AlloSpatial يُحسن النماذج الخاصة بنسبة تتراوح بين 5% إلى 18% دون الحاجة إلى تدريب، بينما تدعم أشجار الافتقار المكاني الاستدلال القوي حتى عند إزالة المدخلات المرئية. الأهم من ذلك، تفوقت وكالات AlloSpatial المدربة على نماذج أوسع من حيث الأداء، مما يشير إلى أن التمثيلات المكانية المنسقة، واستخدام الأدوات النشط، والاستدلال القابل للتحقق، تمثل خطوات واعدة نحو نماذج قادرة على الإدراك المكاني.