تعاني أساليب التعلم المعزز الحالي مثل GRPO من مشكلة انهيار النماذج (Mode Collapse)، حيث تُركز الحلول على خيار وحيد بعد اكتشافه، مما يحد من استكشاف بدائل استراتيجية. هذه المشكلة تنجم عن سلوك تقليل التباين (KL minimization) الذي يسعى إلى تعزيز أول مسار ذو مكافأة عالية يتم العثور عليه، بدلاً من الحفاظ على تنوع الحلول المتعددة.
في سعيهم للتغلب على هذه العقبة، قدم الباحثون طريقة جديدة تُعرف بتطابق التوزيع (DMPO - Distribution-Matching Policy Optimization)، والتي تمنع انهيار النماذج من خلال تقريب مدروس لتقليل تباين KL. تعتمد DMPO على إنشاء توزيع مستهدف على مستوى المجموعة يتناسب مع المكافآت المستخلصة من المسارات المُختارة، ومن ثم تحاذي توزيع السياسة مع هذا التوزيع المستهدف. هذا يعزز سلوك تغطية النماذج دون الحاجة إلى أخذ عينات من التوزيع المستهدف العالمي المعقد، مما يسمح بمزيد من الاستكشاف المستدام على مدار فترة التدريب.
تم اختبار DMPO على مشاكل تحسين التوزيع الصعبة NP-hard، حيث توجد العديد من الحلول المحتملة، ولكن القليل منها يقترب من المثالية – مما يجعله إطار عمل مثالياً لتقييم فعالية الاستكشاف. وقد حققت DMPO نسبة جودة تبلغ 43.9% في اختبارات NP-Bench المعتمدة على النصوص مقارنةً بنسبة 40.1% لـ GRPO، و43.1% في اختبارات NP-Bench المعتمدة على الرؤية بدلاً من 38.4%، مما يظهر تحسيناً نسبته 9% و12% على التوالي. هذه النتائج ليست فقط مثيرة، بل تعمم أيضاً على مهام التفكير الرياضي (+2.0%) والمهام خارج النطاق (+2.3%)، مما يدل على أن التدريب الذي يحافظ على التنوع يعزز من القدرات العامة في التفكير عبر مختلف الأنماط.
تؤكد نتائج هذا البحث على أن تطابق التوزيع يمثل نهجاً عملياً ومدروساً لمنع انهيار النماذج في التعلم المعزز المرتكز على السياسة، حيث تُثبت التحسينات المستمرة في الجودة استكشافاً دائماً عبر مهام التفكير المتنوعة.
تجاوز انهيار النماذج: تطابق التوزيع لتعزيز التنوع في التفكير
تمثل مشكلة انهيار النماذج تحدياً كبيراً في أساليب التعلم المعزز، حيث يؤدي إلى تقليل تنوع الحلول. طورت دراسة جديدة طريقة DMPO لتعزيز استكشاف استراتيجيات متنوعة وتحقيق نتائج أفضل في المجالات ذات التحديات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
