في عالم الذكاء الاصطناعي، يعتبر التعلم المعزز (Reinforcement Learning) أحد أهم المجالات التي تتيح للنماذج تحسين أدائها من خلال التجربة والخطأ. ومع ذلك، فإن مواجهة ما يسمى بظاهرة "الانهيار في الاستكشاف" قد تكون تحديًا كبيرًا، خصوصًا في إطار التعلم المعزز مع مكافآت قابلة للتحقق (RLVR).

قام باحثون مؤخرًا بإعادة النظر في هذه الظاهرة من خلال تحليل "توزيع المرشحين" لتوقع الرمز التالي. حيث أظهرت التجارب أن التركيز على أعلى مرشح (top-1 candidate) يؤدي في النهاية إلى تقليص عدد الاستجابات المختلفة إلى واحدة فقط، بغض النظر عن ميزانية العينة (sampling budget) المحددة K.

تحديات الاستكشاف تتطلب إعادة تقييم كيفية توزيع الاحتمالات على المرشحين. لذلك، يقترح الباحثون استراتيجيات جديدة تُسمى "الحفاظ على دعم الوعي بالمرشحين" (Candidate-aware Support Preservation - CaSP). تتضمن هذه الاستراتيجيات توزيع التدرجات الإيجابية بين أعلى المرشحين لتصحيح الاستجابات، وفرض عقوبات أقوى على الاقتراحات الخاطئة.

ولعل الأهم هو أن هذه المنهجية لا تؤثر سلباً على أداء العينة الأعلى، بل تحسن من الأداء عبر جميع المرشحات. وقد تم اختبار هذه الاستراتيجيات على مجموعة متنوعة من المعايير الرياضية، المنطقية، وبرمجة الأكواد، حيث أظهرت فائدة كبيرة حتى مع نماذج كبيرة تضم 32 مليار معلمة وميزانيات عينة تصل إلى 1024.

بشكل عام، تقدم هذه الدراسة رؤى جديدة ومبتكرة للتعامل مع التحديات الناتجة عن الانهيار في الاستكشاف في سياق التعلم المعزز مع مكافآت قابلة للتحقق، وتبرز أهمية الحفاظ على خيارات متعددة لتعزيز النتائج.