يمثل التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) نهجاً رئيسياً لتحسين قدرات النماذج اللغوية الكبيرة في التفكير. ومع ذلك، يواجه هذا الأسلوب مشكلة كبيرة تعرف باسم 'انهيار التنوع'، حيث يتحسن مقياس Pass@$1$ بينما يتدهور مقياس Pass@$k$ العالي. يُنظر إلى ذلك على أنه تقليص لحدود التفكير في النموذج، مما يثير تساؤلات حول كيفية توسيع نطاق قدرات النموذج.

في الدراسة، تم التطرق إلى مفهوم الإفراط في التدريب كسبب محتمل لانهيار التنوع. يتضح أن المزيد من التحديثات لا تعزز من قدرة النموذج على حل المشكلات، بل تركز على الحلول المفضلة فقط نتيجة لأساليب أخذ العينات الحالية. وقد تم تقييم الحالة التي يتم فيها مراقبة عدد قليل من الحالات، حيث يمكن لوحدة نجاح واحدة أن تضع مشكلة في نظام مشبع تقريباً لمقياس Pass@$k$ العالي، مما يجعل معظم التحديثات تتسم بالإفراط في التدريب.

تشير النتائج إلى إمكانية تحسين قدرات النموذج من خلال إشراف محدد، يستبعد التحديثات على المشكلات التي لم يتم ملاحظتها بنجاح من قبل. أدى ذلك إلى تحسين نتائج Pass@$256$ مقارنة بالنموذج الأساسي في الاختبارات الصعبة. كما تم ملاحظة أن نسبة غير متجاهلة من المشكلات التي كانت تبدو مستعصية أصبحت قابلة للحل خلال عملية تدريب RLVR التقليدية.

بالإضافة إلى ذلك، اقترح الباحثون طريقة جديدة تعرف بـ 'بوابة الحدود البيزية' (Bayesian Boundary Gating - BBG)، التي تهدف إلى توجيه التحسين بعيداً عن الإفراط في التدريب عن طريق تقدير المساهمة الهامشية لكل مشكلة في حدود التفكير. أظهرت نتائج هذه المنهجية الجديدة تحسناً ملحوظاً في مقياس Pass@$k$ عبر مجموعة واسعة من القيم الممكنة لـ k.

في ختام دراستهم، يؤكد الباحثون على أهمية فهم العوامل التي تؤثر على قدرات النماذج اللغوية وكيف يمكن تحسينها لتحقق نتائج أفضل في مجموعة متنوعة من المهام.

ما رأيكم في هذه التطورات المثيرة في مجال الذكاء الاصطناعي؟ شاركونا آرائكم!