شهدت نماذج اللغة الكبيرة (LLMs) تطورًا ملحوظًا دفعنا نحو استخدام التعلم المعزز (RL) لتدريب الوكلاء من خلال تفاعلات متعددة الأدوار. ومع ذلك، فإن تحديات هذا المجال تبقى قائمة، فغالبًا ما تكون المكافآت نادرة أو متأخرة، كما أن البيئات قد تكون عشوائية.
هنا يأتي دور TSR (Trajectory-Search Rollouts)، وهو نهج مبتكر يهدف إلى تحسين جودة التفاعلات أثناء فترة التدريب من خلال تنفيذ عمليات بحث خفيفة على شكل شجرة. يعتمد TSR على فكرة إعادة استخدام الأفكار من مرحلة الاختبار لتحسين كيفية إنشاء التفاعلات بكفاءة عالية.
تقوم هذه التقنية باختيار إجراءات مرتفعة الدرجات في كل دور باستخدام التغذية الراجعة المستندة إلى الحالة، مما لا يحسن فقط من جودة التفاعلات ولكنه يساعد أيضًا في استقرار عملية التعلم. والأجمل في TSR أنه متوافق مع المحسنات القياسية مثل خوارزميات تحسين سياسة التعلم، مما يجعله غير مرتبط بأداة معينة.
بواسطة تنفيذ TSR مع تقنيات مثل best-of-N وbeam وshallow lookahead search، وإقرانه بـ PPO وGRPO، حققت التجارب تحسينًا يصل إلى 15% في الأداء ونتائج تعلم أكثر استقرارًا في مهام مثل Sokoban وFrozenLake وWebShop، مع زيادة معتدلة واحدة في تكاليف التدريب.
من خلال نقل البحث من مرحلة الاستنتاج إلى مرحلة التفاعل في التدريب، يوفر TSR آلية عامة وقابلة للتطوير لتعزيز تعلم الوكلاء في البيئات متعددة الأدوار، مما يدعم الأطر الحالية وأساليب اختيار عينة الرفض.
استراتيجيات متقدمة لتدريب وكلاء الذكاء الاصطناعي: اكتشاف TSR كحل مبتكر
تقدم TSR (Trajectory-Search Rollouts) نهجًا مبتكرًا لتحسين تعلم الوكلاء من خلال تعزيز جودة التفاعلات متعددة الأدوار واستقرار التعلم. هذه التقنية تعيد تشكيل كيفية تدريب نماذج اللغة الكبيرة (LLMs) باستخدام التعلم المعزز (RL).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
