شهدت نماذج اللغة الكبيرة (LLMs) تطورًا ملحوظًا دفعنا نحو استخدام التعلم المعزز (RL) لتدريب الوكلاء من خلال تفاعلات متعددة الأدوار. ومع ذلك، فإن تحديات هذا المجال تبقى قائمة، فغالبًا ما تكون المكافآت نادرة أو متأخرة، كما أن البيئات قد تكون عشوائية.

هنا يأتي دور TSR (Trajectory-Search Rollouts)، وهو نهج مبتكر يهدف إلى تحسين جودة التفاعلات أثناء فترة التدريب من خلال تنفيذ عمليات بحث خفيفة على شكل شجرة. يعتمد TSR على فكرة إعادة استخدام الأفكار من مرحلة الاختبار لتحسين كيفية إنشاء التفاعلات بكفاءة عالية.

تقوم هذه التقنية باختيار إجراءات مرتفعة الدرجات في كل دور باستخدام التغذية الراجعة المستندة إلى الحالة، مما لا يحسن فقط من جودة التفاعلات ولكنه يساعد أيضًا في استقرار عملية التعلم. والأجمل في TSR أنه متوافق مع المحسنات القياسية مثل خوارزميات تحسين سياسة التعلم، مما يجعله غير مرتبط بأداة معينة.

بواسطة تنفيذ TSR مع تقنيات مثل best-of-N وbeam وshallow lookahead search، وإقرانه بـ PPO وGRPO، حققت التجارب تحسينًا يصل إلى 15% في الأداء ونتائج تعلم أكثر استقرارًا في مهام مثل Sokoban وFrozenLake وWebShop، مع زيادة معتدلة واحدة في تكاليف التدريب.

من خلال نقل البحث من مرحلة الاستنتاج إلى مرحلة التفاعل في التدريب، يوفر TSR آلية عامة وقابلة للتطوير لتعزيز تعلم الوكلاء في البيئات متعددة الأدوار، مما يدعم الأطر الحالية وأساليب اختيار عينة الرفض.