في عالم الذكاء الاصطناعي، أصبح [تعلم التعزيز](/tag/[تعلم](/tag/تعلم)-التعزيز) مع [المكافآت](/tag/المكافآت) القابلة للتحقق ([Reinforcement Learning](/tag/reinforcement-learning) with Verifiable Rewards - [RLVR](/tag/rlvr)) الرائد في تعزيز [التفكير المتقدم](/tag/[التفكير](/tag/التفكير)-المتقدم) داخل [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)). ومع ذلك، تعتبر تكلفة الحصول على عينات [التجريب](/tag/التجريب) مرتفعة، مما يجعل [كفاءة](/tag/كفاءة) العينة تحديًا كبيرًا. ولحل هذه المشكلة، يتم استخدام كل دفعة من العينات لعدة [تحديثات](/tag/تحديثات) تدرج، وهي ممارسة تقليدية في [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز). لكن الأمر يختلف في RLVR، حيث يُسهم هذا في زيادة التغيرات في السياسات، مما يؤدي إلى تدهور كبير في [الأداء](/tag/الأداء).

إن [اكتشاف](/tag/اكتشاف) النقطة التي يبدأ عندها التدهور في [الأداء](/tag/الأداء) يعد تحديًا مفتوحًا. هنا يكشف [البحث](/tag/البحث) عن ظاهرة "تباين الوزن غير المتناسب (Disproportionate Weight Divergence - DWD)"، حيث يتزامن تدهور [الأداء](/tag/الأداء) مع زيادة حادة في تغير وزن الرأس اللغوي (lm_head)، بينما تظل الطبقات الوسيطة مستقرة. ومن خلال تجاربنا، تأكدنا من ظهور DWD بشكل مستمر [عبر](/tag/عبر) [نماذج لغوية ضخمة](/tag/[نماذج](/tag/نماذج)-لغوية-ضخمة) ومهام متنوعة.

نثبت نظريًا أن (i) [التدرجات](/tag/التدرجات) الضارة تتركز في الرأس اللغوي (lm_head) بينما يتم تخفيف الطبقات الوسيطة هيكليًا، و(ii) أن قاعدة تدرج الرأس اللغوي توفر حدا أدنى لتباين السياسة. هذه النتائج تتيح لنا استخدام قاعدة تدرج الرأس اللغوي كإشارة رئيسية للتغير الكارثي في [السياسات](/tag/السياسات).

مدفوعين بهذه الرؤية، نقترح [تقنية](/tag/تقنية) "بوابة [التدرجات](/tag/التدرجات) الديناميكية (Dynamic Gradient Gating - DGG)". تعتبر DGG تدخلاً خفيف الوزن يراقب قاعدة تدرج الرأس اللغوي في الوقت الحقيقي ويوقف [التدرجات](/tag/التدرجات) الضارة قبل أن تتسبب في الفساد للمحسن. تثبت DGG أنها تتفوق أو تتساوى مع الأساس التقليدي، محققة [كفاءة](/tag/كفاءة) [عينة](/tag/عينة) تصل إلى 2.93 مرة وتسريع في الزمن يبلغ 2.14 مرة خلال المهام المختلفة مثل الرياضيات، ALFWorld، WebShop، والأسئلة المدعومة بالبحث.