أصبحت الخوارزميات المستندة إلى GRPO (Generalized Randomized Policy Optimization) الخيار القياسي لتدريب وكلاء البحث الذين يعتمدون على المكافآت السلوكية فقط. تعتمد هذه الخوارزميات على مبدأ أن الاستفسار يساهم في تحديث المعلمات فقط عندما يكون مجموعة النتائج مختلطة بين النجاح والفشل. ولكن ماذا عن المجموعات التي تشتمل على نتائج صحيحة بالكامل أو غير صحيحة بالكامل؟ تُعتبر هذه المجموعات صفرية التباين، وتُهدر تكلفة الدوران بشكل فعّال.
تناولت الأبحاث السابقة هذه المسألة من زاوية ثابتة، إما بتجاهل هذه المجموعات أو تصفيتها مسبقًا. لكننا نفترض أن الاستفسارات تتقلب بين الحالات صفرية التباين وحالات تحمل الإشارات أثناء تطور السياسة خلال التدريب. استنادًا إلى هذه الفكرة، نقوم باقتراح مفهوم "إعادة تدوير الاستفسارات"، الذي يعيد المجموعات صفرية التباين إلى مجموعة قابلة للتغيير لإعادة أخذ العينات في المستقبل، مما يتيح توزيع تدريب فعّال يتطور جنبًا إلى جنب مع السياسة.
تظهر تجربتنا أن النموذج الذي يتكون من 1.7 مليار معلمة تم تدريبه على بيانات صناعية يمكن أن يصل إلى دقة متوسط 66.0 في اختبارات الجودة متعددة الخطوات، متفوقًا أو معادلًا لأنظمة تصل إلى 7 مليارات معلمة تم تدريبها على إشراف مستمد من المعايير. تكشف تحليل أنماط إعادة التدوير أن الاستفسارات المعاد تدويرها توفر نحو ثلاثة أرباع الدفعة الفعالة بحلول نهاية التدريب، مع تقاسم المساهمات بين تعافي السياسة وتحول السياسة. هذا الابتكار قد يكون نقطة تحول في كيفية تدريب وكلاء البحث وجعلهم أكثر كفاءة.
كيف ترون هذه التطورات في مجال التعلم المعزز؟ شاركونا آراءكم في التعليقات.
ابتكار جديد في التعلم المعزز: إعادة تدوير الاستفسارات الصفرية لتحسين أداء وكيل البحث
استراتيجيات جديدة في التعلم المعزز تؤسس لمستقبل أفضل لوكلاء البحث، من خلال إعادة تدوير الاستفسارات ذات التباين الصفري لزيادة كفاءة التدريب. النتائج واعدة، حيث تصدرت النماذج المتطورة الأداء في اختبارات الجودة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
