في الوقت الذي شهدت فيه [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) والرؤية ([Vision-Language Models](/tag/vision-language-models)) تقدمًا ملحوظًا، لا يزال [التخطيط](/tag/التخطيط) من إدخال بصري خام يشكل تحديًا كبيرًا. فعندما تتجاوز التعقيدات المدخلات قدرة [نموذج الرؤية](/tag/[نموذج](/tag/نموذج)-[الرؤية](/tag/الرؤية)) على الإدراك الفوري، تصبح الحاجة ملحة لتطوير طرق جديدة تعزز من فاعلية هذه الأنظمة.

قدمت [الأبحاث](/tag/الأبحاث) الحديثة، وخاصةً مفهوم "[التفكير](/tag/التفكير) بالصور" (Thinking with Images)، حلاً مبتكرًا يكمن في تقسيم عملية الإدراك إلى خطوات أبسط من خلال اكتساب [الأدلة](/tag/الأدلة) البصرية المحلية بشكل تدريجي. ومع ذلك، يواجه الباحثون تحديًا يتمثل في أن [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) رغم تدريبها الجيد على هذه القدرة العامة، إلا أنها تعاني من اختناق إدراكي عند التعامل مع مهام [التخطيط](/tag/التخطيط) المعقدة.

للتغلب على هذا التحدي، تم صياغة "[التفكير](/tag/التفكير) بالصور" كأداة لبناء [نموذج](/tag/نموذج) عالم داخلي دقيق. وقد تبين أن [استراتيجية](/tag/استراتيجية) [التخطيط](/tag/التخطيط) الخالية من [التدريب](/tag/التدريب) الناتجة تمكّن [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) من حل مهام تفوق قدراتها الأولية، لكن بتكلفة زيادة الحمل الحسابي في حالة استخدام العديد من عمليات [التفكير](/tag/التفكير) بالصور.

لتحسين الكفاءة، تمت اقترح فكرة "[استنتاج الأنماط](/tag/[استنتاج](/tag/استنتاج)-الأنماط)"، وهي [استراتيجية جديدة](/tag/[استراتيجية](/tag/استراتيجية)-جديدة) لمساعدتها على [التعرف](/tag/التعرف) النشط على الأنماط البصرية المعروفة في المهام الجديدة واستنتاج هياكل [نموذج العالم](/tag/[نموذج](/tag/نموذج)-العالم) المحلي مباشرة. كما تم [اقتراح](/tag/اقتراح) [استراتيجية](/tag/استراتيجية) "[استدلال](/tag/استدلال) النمط"، وهي [استراتيجية](/tag/استراتيجية) تعليمية inductive online تعالج الأنماط البصرية كخبراء مركبين وقابلين لإعادة الاستخدام، يتم اكتشافهم وتحسينهم بشكل مستقل من خلال [التجربة](/tag/التجربة).

أظهرت [التقييمات](/tag/التقييمات) التجريبية في مجالات FrozenLake وCrafter وCubeBench أن هذه المقاربات [تحقق](/tag/تحقق) توازنًا ملحوظًا بين [الدقة](/tag/الدقة) والكفاءة، مما يفتح أبوابًا جديدة لفهم وتحسين [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) في المستقبل. هل تعتقد أن هذه [الابتكارات](/tag/الابتكارات) ستحل فعليًا [تحديات](/tag/تحديات) [التخطيط](/tag/التخطيط) البصري؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!