التخطيط البصري، الذي يعد جزءًا أساسيًا من الذكاء البشري، يُعتبر من التحديات الكبيرة في مجال التعلم الآلي، إذ يواجه المهندسون صعوبة في تصميم نماذج قادرة على التعامل مع مسائل تتطلب تفكيرًا مكانيًا معقدًا. ورغم أن العديد من الأساليب السابقة كانت تعتمد بشكل كبير على معالجة لغوية، إلا أن الأبحاث الحديثة تشير إلى أن الاقتراب من التخطيط بشكل كامل بصريًا هو الأهم.

تقديم نموذج EAR، المبتكر الذي يعتمد على مفهوم "التعديل كعملية تفكير"، يغير هذا المفهوم التقليدي. يُعيد هذا النموذج تشكيل التخطيط البصري كمهمة تحويل صورة واحدة في خطوة واحدة، مما يقلل من تعقيد العمليات السابقة.

لإلقاء الضوء على التفكير البصري بعيدًا عن التعرف البصري، تم تقديم نوع جديد من المهام تعرف بـ"الألغاز المجردة". مع تقديم مجموعة بيانات AMAZE، التي تتضمن مشكلات متعارف عليها مثل المتاهات ومشكلة الملكة، يُمكن تقييم النماذج من حيث الدقة والجدوى المنطقية.

النتائج كانت مثيرة للاهتمام، حيث أظهرت جميع نماذج التحرير المستندة إلى الذكاء الاصطناعي أنها تواجه صعوبة في التنفيذ الخالي من الضوابط، ما جعل التحسين على مقاييس أساسية يساعد في تحقيق تميز ملحوظ على مقاييس أكبر. ومع ذلك، لا يزال نموذجنا الأكثر كفاءة على الأجهزة المتطورة غير قادر على منافسة الكفاءة البشرية في حل هذه المهام، مما يكشف عن فجوة عميقة في القدرة على التفكير البصري العصبي.