تُعد النماذج اللغوية الضخمة (Large Language Models) واحدة من أبرز إنجازات الذكاء الاصطناعي في السنوات الأخيرة، حيث أثبتت قدرتها الرائعة على تحليل ومعالجة اللغات. ولكن، عند التطرق إلى مهام التفكير المكاني، مثل الدوران العقلي للأشكال الثلاثية الأبعاد، تظهر هذه النماذج تحديات كبيرة.

في دراسة حديثة، حاول الباحثون فهم الأسباب وراء عدم قدرة هذه النماذج على إجراء عمليات التصور المكاني بشكل فعّال. حيث ابتدأت التجربة بإضافة "وحدة التصور"، وهي أداة مصممة لتقديم المساعدة من خلال عرض وتدوير النماذج الثلاثية الأبعاد، معتقدين أنه يمكن أن تعمل كـ "طرف صناعي إدراكي". لكن النتائج كانت مخيبة للآمال، حيث أن الأداء لم يتجاوز 62.5% من الدقة المطلوبة.

تُظهِر هذه النتائج أن النموذج اللغوي الضخم، حتى مع دعمه بوحدة تصور خارجية، لا يزال يعاني من نقص في القدرات البصرية والحسية الأساسية التي تُعتبر ضرورية للتفاعل مع الصور. على سبيل المثال، فإن هذه النماذج تفتقر إلى:
1. الحساسية المنخفضة المستوى لاستخراج الإشارات المكانية مثل العمق، الحركة، والتنبؤ الديناميكي قصير الأمد.
2. القدرة على التفكير التأملي فوق الصور، مما يستدعي التكيف الديناميكي للنظر البصري والموازنة بين التصور والمعلومات الرمزية والترابطية.

هذا البحث يُسلط الضوء على العوائق التي لا تزال قائمة في نماذج الذكاء الاصطناعي المتطورة، مما يفتح المجال أمام المزيد من الأبحاث لتطوير أساليب جديدة في هذا المجال.