شهدت [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) ([LLMs](/tag/llms)) تطورًا ملحوظًا دفعنا [نحو](/tag/نحو) استخدام [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) (RL) لتدريب [الوكلاء](/tag/الوكلاء) من خلال [تفاعلات](/tag/تفاعلات) متعددة الأدوار. ومع ذلك، فإن [تحديات](/tag/تحديات) هذا المجال تبقى قائمة، فغالبًا ما تكون [المكافآت](/tag/المكافآت) نادرة أو متأخرة، كما أن البيئات قد تكون عشوائية.

هنا يأتي دور [TSR](/tag/tsr) (Trajectory-Search Rollouts)، وهو نهج مبتكر يهدف إلى [تحسين](/tag/تحسين) جودة [التفاعلات](/tag/التفاعلات) أثناء فترة [التدريب](/tag/التدريب) من خلال [تنفيذ](/tag/تنفيذ) عمليات [بحث](/tag/بحث) خفيفة على شكل شجرة. يعتمد [TSR](/tag/tsr) على فكرة إعادة استخدام الأفكار من مرحلة الاختبار لتحسين كيفية إنشاء [التفاعلات](/tag/التفاعلات) بكفاءة عالية.

تقوم هذه [التقنية](/tag/التقنية) باختيار [إجراءات](/tag/إجراءات) مرتفعة الدرجات في كل دور باستخدام [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) المستندة إلى الحالة، مما لا يحسن فقط من جودة [التفاعلات](/tag/التفاعلات) ولكنه يساعد أيضًا في [استقرار](/tag/استقرار) عملية [التعلم](/tag/التعلم). والأجمل في [TSR](/tag/tsr) أنه متوافق مع المحسنات القياسية مثل [خوارزميات](/tag/خوارزميات) [تحسين](/tag/تحسين) [سياسة](/tag/سياسة) التعلم، مما يجعله غير مرتبط بأداة معينة.

بواسطة [تنفيذ](/tag/تنفيذ) [TSR](/tag/tsr) مع [تقنيات](/tag/تقنيات) مثل best-of-N وbeam وshallow lookahead search، وإقرانه بـ [PPO](/tag/ppo) وGRPO، حققت [التجارب](/tag/التجارب) تحسينًا يصل إلى 15% في [الأداء](/tag/الأداء) ونتائج [تعلم](/tag/تعلم) أكثر استقرارًا في مهام مثل Sokoban وFrozenLake وWebShop، مع زيادة معتدلة واحدة في [تكاليف](/tag/تكاليف) [التدريب](/tag/التدريب).

من خلال [نقل](/tag/نقل) [البحث](/tag/البحث) من مرحلة [الاستنتاج](/tag/الاستنتاج) إلى مرحلة [التفاعل](/tag/التفاعل) في التدريب، يوفر [TSR](/tag/tsr) آلية عامة وقابلة للتطوير لتعزيز [تعلم](/tag/تعلم) [الوكلاء](/tag/الوكلاء) في البيئات متعددة الأدوار، مما يدعم الأطر الحالية وأساليب اختيار [عينة](/tag/عينة) الرفض.