في عالم الذكاء الاصطناعي، تمثل نماذج التفكير الكبير (Large Reasoning Models) إحدى التطورات الرائدة، إذ تُظهر قدرات عامة مذهلة. لكن، تواجه هذه النماذج تحديات كبيرة في مهام التفكير المكاني. يتعامل العديد من الباحثين مع هذه الفجوة كعجز معرفي، ويعتمدون على عملية التعديل الدقيق تحت الإشراف (Supervised Fine-Tuning) لتغذية النماذج ببيانات مكانية مصنّفة من مصادر بصرية خارجية.

ومع ذلك، يجادل الباحثون، في هذا العمل، أن معظم القدرات الضرورية للتفكير المكاني موجودة بالفعل في هذه النماذج المدربة مسبقاً، لكن تحتاج إلى تنظيم من خلال الاتساق المنطقي وفقاً لقيود هندسية في الأبعاد الثنائية والثلاثية.

تقديم إطار عمل يعتمد على التعلم المعزز الذاتي (Self-Supervised Reinforcement Learning) يعد بديلاً مثيرًا، حيث يستهدف عملية التفكير الداخلية دون الحاجة إلى تعليقات مرجعية دقيقة. من خلال توضيح مفهوم المدققين للاتساق - وهي دوال مكافأة تتحقق من الاتساق الهندسي والدلالي تحت أشكال التحويل - يظهر البحث كيف يمكن للنماذج تعزيز قدراتها في التفكير المكاني.

تتضمن التقنيات المستخدمة تحولات بصرية، مثل قلب الصور، وتحولات نصية، مثل تبديل ترتيب الأشياء في السؤال. كما يقترح الباحثون استراتيجية تعلم معزز جديدة تسمى OT-GRPO، وهي نسخة معدلة تركز على المدققين الثنائيين. وقد أظهر البحث أن هذه الطريقة الحديثة التي لا تعتمد على التسميات تتحسن دقتها لتقترب من دقة النماذج المدربة بواسطة إشراف دقيق، وتحقيق تعميم مماثل عبر مهام ومجالات بيانات متنوعة.

من الواضح أن تطوير استراتيجيات جديدة في تكنولوجيا الذكاء الاصطناعي مثل هذه سيكون لها تأثير عميق على كيفية معالجة المعلومات، مما يفتح آفاقاً جديدة في العديد من التطبيقات.