شهدت [نماذج [اللغة](/tag/اللغة) الكبيرة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-الكبيرة) ([LLMs](/tag/llms)) تطورًا ملحوظًا دفعنا [نحو](/tag/نحو) استخدام [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) (RL) لتدريب [الوكلاء](/tag/الوكلاء) من خلال [تفاعلات](/tag/تفاعلات) متعددة الأدوار. ومع ذلك، فإن [تحديات](/tag/تحديات) هذا المجال تبقى قائمة، فغالبًا ما تكون [المكافآت](/tag/المكافآت) نادرة أو متأخرة، كما أن البيئات قد تكون عشوائية.
هنا يأتي دور [TSR](/tag/tsr) (Trajectory-Search Rollouts)، وهو نهج مبتكر يهدف إلى [تحسين](/tag/تحسين) جودة [التفاعلات](/tag/التفاعلات) أثناء فترة [التدريب](/tag/التدريب) من خلال [تنفيذ](/tag/تنفيذ) عمليات [بحث](/tag/بحث) خفيفة على شكل شجرة. يعتمد [TSR](/tag/tsr) على فكرة إعادة استخدام الأفكار من مرحلة الاختبار لتحسين كيفية إنشاء [التفاعلات](/tag/التفاعلات) بكفاءة عالية.
تقوم هذه [التقنية](/tag/التقنية) باختيار [إجراءات](/tag/إجراءات) مرتفعة الدرجات في كل دور باستخدام [التغذية الراجعة](/tag/[التغذية](/tag/التغذية)-الراجعة) المستندة إلى الحالة، مما لا يحسن فقط من جودة [التفاعلات](/tag/التفاعلات) ولكنه يساعد أيضًا في [استقرار](/tag/استقرار) عملية [التعلم](/tag/التعلم). والأجمل في [TSR](/tag/tsr) أنه متوافق مع المحسنات القياسية مثل [خوارزميات](/tag/خوارزميات) [تحسين](/tag/تحسين) [سياسة](/tag/سياسة) التعلم، مما يجعله غير مرتبط بأداة معينة.
بواسطة [تنفيذ](/tag/تنفيذ) [TSR](/tag/tsr) مع [تقنيات](/tag/تقنيات) مثل best-of-N وbeam وshallow lookahead search، وإقرانه بـ [PPO](/tag/ppo) وGRPO، حققت [التجارب](/tag/التجارب) تحسينًا يصل إلى 15% في [الأداء](/tag/الأداء) ونتائج [تعلم](/tag/تعلم) أكثر استقرارًا في مهام مثل Sokoban وFrozenLake وWebShop، مع زيادة معتدلة واحدة في [تكاليف](/tag/تكاليف) [التدريب](/tag/التدريب).
من خلال [نقل](/tag/نقل) [البحث](/tag/البحث) من مرحلة [الاستنتاج](/tag/الاستنتاج) إلى مرحلة [التفاعل](/tag/التفاعل) في التدريب، يوفر [TSR](/tag/tsr) آلية عامة وقابلة للتطوير لتعزيز [تعلم](/tag/تعلم) [الوكلاء](/tag/الوكلاء) في البيئات متعددة الأدوار، مما يدعم الأطر الحالية وأساليب اختيار [عينة](/tag/عينة) الرفض.
استراتيجيات متقدمة لتدريب وكلاء الذكاء الاصطناعي: اكتشاف TSR كحل مبتكر
تقدم TSR (Trajectory-Search Rollouts) نهجًا مبتكرًا لتحسين تعلم الوكلاء من خلال تعزيز جودة التفاعلات متعددة الأدوار واستقرار التعلم. هذه التقنية تعيد تشكيل كيفية تدريب نماذج اللغة الكبيرة (LLMs) باستخدام التعلم المعزز (RL).
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
