في عالم تعلم الآلة، تواجه نماذج استخدام الأدوات متعددة الجولات (Multi-turn Tool-Use Agents) تحديات جمة، وخاصةً مع تآكل العينات المعلوماتية في المجموعات الثابتة بسرعة. وقد بدأ العلماء في إدراك أن إشارة التدرج (Gradient Signal) في خوارزمية GRPO تتركز على المهام التي تحمل أعلى تباين في مكافآت الرولوت (Rollout Rewards). نتيجة لذلك، فإن العينات القريبة من حدود قدرات الوكيل—حيث تكون النجاحات والفشل متوازنة تقريبًا—تسهم بشكل غير متناسب في تدرجات السياسات (Policy Gradients) الكبيرة. وكما تتطور عملية التدريب، فإن هذه الحدود تتحرك باستمرار مما يؤدي إلى استنفاد مجموعة العينات المفيدة في البيانات الثابتة.

تقدم الدراسة نظام RODS (توليد بيانات عبر الإنترنت مدفوع بالمكافآت) كحل لهذه المشكلة. حيث يغلق RODS الحلقة بين تدريب التعلم المعزز وتوليد البيانات من خلال إعادة استخدام تباين مكافآت التقدم ككاشف حدود عملي بلا تكلفة إضافية.

يقوم RODS أيضًا بتحديد هذه العينات الحدودية باستمرار، ويقوم بتوليد متغيرات جديدة متعددة الجولات تتناسب مع تعقيدها الهيكلي (مثل، تكوين واجهة برمجة التطبيقات وعمق الاعتماد)، عبر خط أنابيب إعادة أخذ عينات متماشي مع المهارة (Skill-Aligned Resampling Pipeline).

بالإضافة إلى ذلك، يقوم بإدارة مخزن إعادة اللعب الديناميكي الذي يتطور جنبًا إلى جنب مع السياسة. بدءًا من 400 عينة بشرية ويحتفظ بمجموعة تدريب نشطة تتكون من حوالي 800 عينة، يُظهر RODS أداءً يقارن مع خط أنابيب يحتوي على 17 ألف عينة بينما يتطلب مسارات أقل بنحو 20 مرة، مما يُحسن من التعلم الثابت والمعزز في بيئتنا المختبرية.

باختصار، يجسد RODS خطوة كبيرة نحو تحسين نموذج التعلم المعزز، ويُظهر كيف يمكن للابتكار في توليد البيانات أن يعزز عملية التدريب ويحقق نتائج أفضل. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.