في عالم الذكاء الاصطناعي المتطور، يُعتبر التعلم المعزز مع مكافآت قابلة للتحقق (RLVR) أداة حيوية لتعزيز قدرات التفكير في نماذج اللغة الكبيرة (LLMs). ومع ذلك، فإن التدريب المستمر يمكن أن يؤدي إلى انهيار الانتروبي، حيث تتلاشى المخاطر بسرعة مما يُسبب ثقة مفرطة، ويقلل التنوع في النتائج، كما يعوق تدرجات الانحدار الضرورية للتعلم.

تكمن المشكلة في التأثيرات الناتجة عن القص المراعي للتدرجات (Gradient-Preserving Clipping) التي تلعب دورًا رئيسيًا في تلك الديناميكيات. ومع أن الاستراتيجيات الحالية للحد من الانهيار عادة ما تكون ثابتة، إلا أنها تفتقر إلى إطار عمل يربط بين آليات القص والسيطرة الدقيقة على الانتروبي.

تقدم هذه الورقة البحثية مفهومًا جديدًا لإعادة تشكيل التحكم في الانتروبي من منظور القص المراعي للتدرجات. حيث تحقق دراسات نظرية وتجريبية من قيمة مناطق محددة في نسبة العينات المهمة (importance sampling ratio) على نمو وتقليص الانتروبي.

استنادًا إلى هذه النتائج، يتم تقديم آلية تنظيم مبتكرة تستخدم حدود قص ديناميكية لإدارة الانتروبي بدقة. كما تم تصميم وتقييم استراتيجيات تحكم ديناميكية في الانتروبي تتضمن النمو ثم التناقص، والتناقص ثم الزيادة ثم التناقص، والانخفاض المتذبذب.

أظهرت النتائج التجريبية أن هذه الاستراتيجيات فعالة في تخفيف انهيار الانتروبي وتحقيق أداء متفوق عبر مجموعة متنوعة من المعايير.