في عالم الذكاء الاصطناعي، أثبتت [نماذج الاستدلال](/tag/[نماذج](/tag/نماذج)-[الاستدلال](/tag/الاستدلال)) الكبيرة (Large Language Reasoning [Models](/tag/models)) نجاحاً ملحوظاً في المهام الثابتة. ومع ذلك، فإن تطبيقها في [التخطيط](/tag/التخطيط) متعدد الجولات في بيئات [تفاعلية](/tag/تفاعلية) يواجه تحديين رئيسيين. الأول هو مشكلة [توزيع الائتمان](/tag/توزيع-[الائتمان](/tag/الائتمان)) (credit assignment problem) المعقدة التي تجعل [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) التقليدي غير فعال في البيئات ذات الثواب النادر. والثاني هو الحمل الحاسوبي الناتج عن [السجلات](/tag/السجلات) الطويلة من عمليات الاستدلال، مما يؤدي إلى صعوبة كبيرة في [التطبيقات](/tag/التطبيقات) [العملية](/tag/العملية).

للتغلب على هذه التحديات، تم تقديم إطار BPO، الذي يتكون من ثلاثة مراحل (التمهيد، الاستقراء، والتنقيح) ويؤسس دورة [بيانات ذاتية](/tag/[بيانات](/tag/بيانات)-ذاتية) [التحسين](/tag/التحسين) لتطوير [نماذج استدلال](/tag/[نماذج](/tag/نماذج)-[استدلال](/tag/استدلال)) قوية في بيئات [التخطيط](/tag/التخطيط) ذات [المكافآت](/tag/المكافآت) النادرة والمدى الطويل. تبدأ [العملية](/tag/العملية) بتمهيد [استدلال](/tag/استدلال) فعال باستخدام الرباعيات التخطيطية (planning quaternions) مع دمج تسلسل [التفكير](/tag/التفكير) القصير والطويل. بعدها، يتم الاستقراء إلى المهام غير الموزعة من خلال [التعلم المنهجي](/tag/[التعلم](/tag/التعلم)-المنهجي) المعتمد على تعقيد [البيئة](/tag/البيئة). وأخيراً، يتم تنقيح النموذج بشكل تكراري من خلال [التعلم](/tag/التعلم) بالاعتماد حصراً على [التجارب](/tag/التجارب) المدروسة [عبر](/tag/عبر) [عينة](/tag/عينة) [رفض](/tag/رفض) مُحكمة من خلال [المكافآت](/tag/المكافآت).

تجاربنا على ALFWorld وScienceWorld وWebShop أظهرت أن نهجنا يحقق مستويات عالية جداً من الكفاءة، مما يوفر وصفة جديدة لنماذج [الاستدلال](/tag/الاستدلال) في [التخطيط](/tag/التخطيط) الذاتي. إن [الابتكار](/tag/الابتكار) في هذا المجال يمثل خطوة جريئة [نحو](/tag/نحو) [تحسين الأداء](/tag/[تحسين](/tag/تحسين)-[الأداء](/tag/الأداء)) في البيئات التفاعلية التي تشبه العالم الحقيقي.