في عالم الذكاء الاصطناعي، أثبتت نماذج الاستدلال الكبيرة (Large Language Reasoning Models) نجاحاً ملحوظاً في المهام الثابتة. ومع ذلك، فإن تطبيقها في التخطيط متعدد الجولات في بيئات تفاعلية يواجه تحديين رئيسيين. الأول هو مشكلة توزيع الائتمان (credit assignment problem) المعقدة التي تجعل التعلم المعزز التقليدي غير فعال في البيئات ذات الثواب النادر. والثاني هو الحمل الحاسوبي الناتج عن السجلات الطويلة من عمليات الاستدلال، مما يؤدي إلى صعوبة كبيرة في التطبيقات العملية.

للتغلب على هذه التحديات، تم تقديم إطار BPO، الذي يتكون من ثلاثة مراحل (التمهيد، الاستقراء، والتنقيح) ويؤسس دورة بيانات ذاتية التحسين لتطوير نماذج استدلال قوية في بيئات التخطيط ذات المكافآت النادرة والمدى الطويل. تبدأ العملية بتمهيد استدلال فعال باستخدام الرباعيات التخطيطية (planning quaternions) مع دمج تسلسل التفكير القصير والطويل. بعدها، يتم الاستقراء إلى المهام غير الموزعة من خلال التعلم المنهجي المعتمد على تعقيد البيئة. وأخيراً، يتم تنقيح النموذج بشكل تكراري من خلال التعلم بالاعتماد حصراً على التجارب المدروسة عبر عينة رفض مُحكمة من خلال المكافآت.

تجاربنا على ALFWorld وScienceWorld وWebShop أظهرت أن نهجنا يحقق مستويات عالية جداً من الكفاءة، مما يوفر وصفة جديدة لنماذج الاستدلال في التخطيط الذاتي. إن الابتكار في هذا المجال يمثل خطوة جريئة نحو تحسين الأداء في البيئات التفاعلية التي تشبه العالم الحقيقي.