تعاني [أساليب](/tag/أساليب) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) الحالي مثل [GRPO](/tag/grpo) من مشكلة انهيار [النماذج](/tag/النماذج) (Mode Collapse)، حيث تُركز الحلول على خيار وحيد بعد اكتشافه، مما يحد من [استكشاف](/tag/استكشاف) بدائل [استراتيجية](/tag/استراتيجية). هذه المشكلة تنجم عن [سلوك](/tag/سلوك) تقليل [التباين](/tag/التباين) (KL minimization) الذي يسعى إلى تعزيز أول مسار ذو [مكافأة](/tag/مكافأة) عالية يتم العثور عليه، بدلاً من الحفاظ على [تنوع](/tag/تنوع) الحلول المتعددة.

في سعيهم للتغلب على هذه العقبة، قدم الباحثون طريقة جديدة تُعرف بتطابق التوزيع (DMPO - Distribution-Matching [Policy Optimization](/tag/policy-optimization))، والتي تمنع انهيار [النماذج](/tag/النماذج) من خلال [تقريب](/tag/تقريب) مدروس لتقليل تباين KL. تعتمد DMPO على إنشاء توزيع مستهدف على مستوى المجموعة يتناسب مع [المكافآت](/tag/المكافآت) المستخلصة من المسارات المُختارة، ومن ثم تحاذي توزيع السياسة مع هذا التوزيع المستهدف. هذا يعزز [سلوك](/tag/سلوك) تغطية [النماذج](/tag/النماذج) دون الحاجة إلى أخذ عينات من التوزيع المستهدف العالمي المعقد، مما يسمح بمزيد من [الاستكشاف](/tag/الاستكشاف) المستدام على مدار فترة [التدريب](/tag/التدريب).

تم اختبار DMPO على مشاكل [تحسين](/tag/تحسين) التوزيع الصعبة NP-hard، حيث توجد العديد من الحلول المحتملة، ولكن القليل منها يقترب من المثالية – مما يجعله إطار [عمل](/tag/عمل) مثالياً لتقييم فعالية [الاستكشاف](/tag/الاستكشاف). وقد حققت DMPO نسبة جودة تبلغ 43.9% في [اختبارات](/tag/اختبارات) NP-Bench المعتمدة على النصوص مقارنةً بنسبة 40.1% لـ GRPO، و43.1% في [اختبارات](/tag/اختبارات) NP-Bench المعتمدة على [الرؤية](/tag/الرؤية) بدلاً من 38.4%، مما يظهر تحسيناً نسبته 9% و12% على التوالي. هذه النتائج ليست فقط مثيرة، بل تعمم أيضاً على مهام [التفكير الرياضي](/tag/[التفكير](/tag/التفكير)-الرياضي) (+2.0%) والمهام خارج النطاق (+2.3%)، مما يدل على أن [التدريب](/tag/التدريب) الذي يحافظ على [التنوع](/tag/التنوع) يعزز من القدرات العامة في [التفكير](/tag/التفكير) [عبر](/tag/عبر) مختلف الأنماط.

تؤكد نتائج هذا [البحث](/tag/البحث) على أن تطابق التوزيع يمثل نهجاً عملياً ومدروساً لمنع انهيار [النماذج](/tag/النماذج) في [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) المرتكز على السياسة، حيث تُثبت التحسينات المستمرة في الجودة استكشافاً دائماً [عبر](/tag/عبر) مهام [التفكير](/tag/التفكير) المتنوعة.