في عالم الذكاء الاصطناعي، تتجلى بارقة أمل مثيرة في [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) [متعددة الوسائط](/tag/متعددة-الوسائط) (Multi-Modal Large Language [Models](/tag/models) - [MLLMs](/tag/mllms))، حيث تُظهر قدرات مثيرة في [التفكير المنطقي](/tag/[التفكير](/tag/التفكير)-المنطقي) العام. لكن ما زالت هذه [النماذج](/tag/النماذج) تواجه عقبة كبيرة تعرف بـ "الوهم الكارتيسي"، وهو اعتمادها على [توزيعات احتمالية](/tag/[توزيعات](/tag/توزيعات)-[احتمالية](/tag/احتمالية)) نصية تُفتقر إلى الفهم المكاني ثلاثي الأبعاد.

تظهر هذه المشكلة في البيئات متعددة الوكلاء، حيث يتطلب الأمر أكثر من مجرد [إدراك](/tag/إدراك) المشاهد، بل يحتاج إلى [نظرية](/tag/نظرية) عقل من الدرجة الثانية (Theory of Mind - ToM). فالمطلوب أن يكون الوكيل (Agent A) قادرًا على [استنتاج](/tag/استنتاج) معتقدات الوكيل الآخر (Agent B) بشأن البيئة، والتي تخضع بالكامل لتوجهه المادي وقيود حواسه.

في هذا السياق، تقدم الورقة البحثية الجديدة [دراسة](/tag/دراسة) عميقة في حدود [الاستدلال](/tag/الاستدلال) المكاني على مرحلتين في [نماذج](/tag/نماذج) [MLLMs](/tag/mllms) من خلال مهمة سمعية ومرئية جديدة، تتطلب من الوكيل A توقع تقدير الوكيل B لموقعه النسبي. وللتغلب على هذا التحدي، يقترح الباحثون وحدة "اختناق الحواس الإدراكية" (Epistemic Sensory Bottleneck) التي تتخلى عن التحولات الثابتة المعتمدة على القواعد.

بدلاً من ذلك، تم تقديم سلسلة من الفهم المكاني مستندة إلى نقاط التثبيت (Anchor-Based Embodied Spatial Decomposition [Chain-of-Thought](/tag/chain-of-thought) - CoT)، والتي توجه [MLLM](/tag/mllm) من خلال "إسقاط هندسي إلى دلالي"، مما يجبر النموذج على إنشاء نظام إحداثيات محلي للوكيل B ثم وزن المدخلات البصرية والسمعية ديناميكيًا بناءً على ما إذا كان A يقع داخل حقل [رؤية](/tag/رؤية) B.

تظهر [التقييمات](/tag/التقييمات) المكثفة أن بينما تواجه [نماذج](/tag/نماذج) [MLLMs](/tag/mllms) الحالية صعوبة جذرية مع [تماثل](/tag/تماثل) [الفضاء](/tag/الفضاء) والغموض غير المرئي (حيث أظهرت الأساسيات [دقة](/tag/دقة) 42% فقط)، إلا أن [سلسلة التفكير](/tag/سلسلة-[التفكير](/tag/التفكير)) المرتبط بالحساسية تتفوق بشكل ملحوظ على الأسس النمطية الذاتية والموضوعية (egocentric and allocentric). من خلال [تقييم](/tag/تقييم) هذه الاختناقات الإدراكية بشكل منهجي، يكشف عملنا عن الحدود الحالية لاستدلال [MLLM](/tag/mllm) المكاني ويؤسس نموذجًا أساسيًا للاستدلال المعتمد على الوسائط في [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتجسد.

ما رأيكم في هذه النتائج؟ هل تعتقدون أن [النماذج](/tag/النماذج) المستقبلية ستتجاوز هذه التحديات؟ شاركونا في [التعليقات](/tag/التعليقات).