تعاني [أساليب](/tag/أساليب) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) الحالي مثل [GRPO](/tag/grpo) من مشكلة انهيار [النماذج](/tag/النماذج) (Mode Collapse)، حيث تُركز الحلول على خيار وحيد بعد اكتشافه، مما يحد من [استكشاف](/tag/استكشاف) بدائل [استراتيجية](/tag/استراتيجية). هذه المشكلة تنجم عن [سلوك](/tag/سلوك) تقليل [التباين](/tag/التباين) (KL minimization) الذي يسعى إلى تعزيز أول مسار ذو [مكافأة](/tag/مكافأة) عالية يتم العثور عليه، بدلاً من الحفاظ على [تنوع](/tag/تنوع) الحلول المتعددة.
في سعيهم للتغلب على هذه العقبة، قدم الباحثون طريقة جديدة تُعرف بتطابق التوزيع (DMPO - Distribution-Matching [Policy Optimization](/tag/policy-optimization))، والتي تمنع انهيار [النماذج](/tag/النماذج) من خلال [تقريب](/tag/تقريب) مدروس لتقليل تباين KL. تعتمد DMPO على إنشاء توزيع مستهدف على مستوى المجموعة يتناسب مع [المكافآت](/tag/المكافآت) المستخلصة من المسارات المُختارة، ومن ثم تحاذي توزيع السياسة مع هذا التوزيع المستهدف. هذا يعزز [سلوك](/tag/سلوك) تغطية [النماذج](/tag/النماذج) دون الحاجة إلى أخذ عينات من التوزيع المستهدف العالمي المعقد، مما يسمح بمزيد من [الاستكشاف](/tag/الاستكشاف) المستدام على مدار فترة [التدريب](/tag/التدريب).
تم اختبار DMPO على مشاكل [تحسين](/tag/تحسين) التوزيع الصعبة NP-hard، حيث توجد العديد من الحلول المحتملة، ولكن القليل منها يقترب من المثالية – مما يجعله إطار [عمل](/tag/عمل) مثالياً لتقييم فعالية [الاستكشاف](/tag/الاستكشاف). وقد حققت DMPO نسبة جودة تبلغ 43.9% في [اختبارات](/tag/اختبارات) NP-Bench المعتمدة على النصوص مقارنةً بنسبة 40.1% لـ GRPO، و43.1% في [اختبارات](/tag/اختبارات) NP-Bench المعتمدة على [الرؤية](/tag/الرؤية) بدلاً من 38.4%، مما يظهر تحسيناً نسبته 9% و12% على التوالي. هذه النتائج ليست فقط مثيرة، بل تعمم أيضاً على مهام [التفكير الرياضي](/tag/[التفكير](/tag/التفكير)-الرياضي) (+2.0%) والمهام خارج النطاق (+2.3%)، مما يدل على أن [التدريب](/tag/التدريب) الذي يحافظ على [التنوع](/tag/التنوع) يعزز من القدرات العامة في [التفكير](/tag/التفكير) [عبر](/tag/عبر) مختلف الأنماط.
تؤكد نتائج هذا [البحث](/tag/البحث) على أن تطابق التوزيع يمثل نهجاً عملياً ومدروساً لمنع انهيار [النماذج](/tag/النماذج) في [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) المرتكز على السياسة، حيث تُثبت التحسينات المستمرة في الجودة استكشافاً دائماً [عبر](/tag/عبر) مهام [التفكير](/tag/التفكير) المتنوعة.
تجاوز انهيار النماذج: تطابق التوزيع لتعزيز التنوع في التفكير
تمثل مشكلة انهيار النماذج تحدياً كبيراً في أساليب التعلم المعزز، حيث يؤدي إلى تقليل تنوع الحلول. طورت دراسة جديدة طريقة DMPO لتعزيز استكشاف استراتيجيات متنوعة وتحقيق نتائج أفضل في المجالات ذات التحديات المعقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
