حققت نماذج اللغات الضخمة (Large Language Models) تقدمًا مذهلاً في فهم اللغة والتفكير المنطقي، لكنها تواجه عقبة رئيسية في معالجة التفكير المكاني، الأمر الذي يحد من فعاليتها خاصةً في مجالات الذكاء المتجسد. وفي مستهل هذا الجديد، تستعرض ورقة بحثية مبتكرة تقنيات تحليل المهام التسلسلية، مستلهمة من نجاح التعلم المعزز التسلسلي.

تقترح هذه الدراسة نهجًا جديدًا يسمح لنماذج اللغات الضخمة بتفكيك المهام المعقدة إلى مهام فرعية أصغر، مما يمكّنها من التعرف على الحالات الوسيطة الرئيسية وإنشاء بيئات مبسطة. ومع ذلك، يتبين أن النماذج غالبًا ما تفشل في استخراج الحالات الوسيطة المثلى بسبب قصور خلفيتها المعرفية المتعلقة بالتفكير المكاني، مما يعيق عملية التفكيك الأمثل للمهام.

للتغلب على هذه التحديات، يطرح الباحثون تقنية جديدة تُعرف باسم تحسين السياسة النسبية الموجّه عبر أشجار مونتي كارلو (MCTS-Guided Group Relative Policy Optimization - M-GRPO)، والتي تعيد صياغة صيغة UCT عن طريق دمج احتمالات التنبؤ السابقة للنموذج إلى جانب عدم اليقين المعرفي.

بالإضافة إلى ذلك، يعزز النموذج وظيفة الميزة بشكل أكثر تفصيلاً، مما يمكّن النموذج من تعلّم تخطيط المسار الأمثل. وقد أظهرت التجارب أن هذه المنهجية تحسن بشكل ملحوظ أداء نماذج اللغات الضخمة في المهام المكانية، بما في ذلك التنقل والتخطيط والألعاب الاستراتيجية، محققة نتائج متقدمة إلى حد كبير.

تفتح هذه الإنجازات آفاقًا واسعة لتطبيقات النماذج في العالم الحقيقي، ما يجعلها أكثر كفاءة وفاعلية في مواجهة التحديات المعقدة.