في عالم الذكاء الاصطناعي، يعتبر تعلم التعزيز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) تقنية رائدة تعزز من قدرات الاستدلال لدى نماذج اللغات الضخمة (Large Language Models - LLMs). لكن، تظهر تحديات عديدة، أبرزها ما يسمى بـ "انهيار الانتروبيا"، وهي ظاهرة تتمثل في الانخفاض السريع في الانتروبيا الخاصة بالسياسة، مما يحد من إمكانية الاستكشاف ويقوض فعالية التدريب.

قدمت الأعمال الأخيرة حلولاً تعتمد على تدخلات انتروبيا تجريبية، لكن الكثير منها لم يفهم الآليات الأساسية المُحركة لهذه الظاهرة. في هذا السياق، أجرينا تحليلات نظرية وتجريبية شاملة لديناميات الانتروبيا في نظام RLVR. ومن خلال ذلك، حصلنا على رؤيتين رئيسيتين:

1. توصلنا إلى تقريب تحليلي دقيق لتغير الانتروبيا على مستوى الرموز في كل خطوة تحديث، مما يكشف عن أربعة عوامل تحكمية ويقدم إطارًا نظريًا موحدًا لشرح كيفية تأثير الأساليب الحالية على الانتروبيا.

2. اكتشفنا قيدًا أساسيًا في الأساليب الحديثة: حيث تعتمد فقط على تعديلات تجريبية لعوامل معينة، مما يترك عوامل أخرى ذات صلة دون نظر، وبالتالي تحد من فعاليتها بشكل جوهري.

تحفيزًا لهذه الاكتشافات، نقوم بتقديم STEER، وهي طريقة مدروسة لتعديل الانتروبيا، حيث تعيد وزن الرموز بشكل تكيفي بناءً على تقديرات نظرية لتغيرات الانتروبيا. تم إجراء تجارب موسعة على ستة اختبارات رياضية وثلاثة في البرمجة، وظهر أن STEER يقلل من انهيار الانتروبيا بفعالية ويتفوق باستمرار على الأطر المعمول بها حاليًا.