في عالم الذكاء الاصطناعي، أصبح تعلم التعزيز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) الرائد في تعزيز التفكير المتقدم داخل نماذج اللغات الضخمة (Large Language Models - LLMs). ومع ذلك، تعتبر تكلفة الحصول على عينات التجريب مرتفعة، مما يجعل كفاءة العينة تحديًا كبيرًا. ولحل هذه المشكلة، يتم استخدام كل دفعة من العينات لعدة تحديثات تدرج، وهي ممارسة تقليدية في التعلم المعزز. لكن الأمر يختلف في RLVR، حيث يُسهم هذا في زيادة التغيرات في السياسات، مما يؤدي إلى تدهور كبير في الأداء.

إن اكتشاف النقطة التي يبدأ عندها التدهور في الأداء يعد تحديًا مفتوحًا. هنا يكشف البحث عن ظاهرة "تباين الوزن غير المتناسب (Disproportionate Weight Divergence - DWD)"، حيث يتزامن تدهور الأداء مع زيادة حادة في تغير وزن الرأس اللغوي (lm_head)، بينما تظل الطبقات الوسيطة مستقرة. ومن خلال تجاربنا، تأكدنا من ظهور DWD بشكل مستمر عبر نماذج لغوية ضخمة ومهام متنوعة.

نثبت نظريًا أن (i) التدرجات الضارة تتركز في الرأس اللغوي (lm_head) بينما يتم تخفيف الطبقات الوسيطة هيكليًا، و(ii) أن قاعدة تدرج الرأس اللغوي توفر حدا أدنى لتباين السياسة. هذه النتائج تتيح لنا استخدام قاعدة تدرج الرأس اللغوي كإشارة رئيسية للتغير الكارثي في السياسات.

مدفوعين بهذه الرؤية، نقترح تقنية "بوابة التدرجات الديناميكية (Dynamic Gradient Gating - DGG)". تعتبر DGG تدخلاً خفيف الوزن يراقب قاعدة تدرج الرأس اللغوي في الوقت الحقيقي ويوقف التدرجات الضارة قبل أن تتسبب في الفساد للمحسن. تثبت DGG أنها تتفوق أو تتساوى مع الأساس التقليدي، محققة كفاءة عينة تصل إلى 2.93 مرة وتسريع في الزمن يبلغ 2.14 مرة خلال المهام المختلفة مثل الرياضيات، ALFWorld، WebShop، والأسئلة المدعومة بالبحث.