أصبح التعلم المعزز (Reinforcement Learning - RL) أداة قوية تدفع نماذج اللغة الكبيرة (Large Language Models - LLMs) نحو تحسين قدرات التفكير beyond التقليدي القائم على المحاكاة. ومن بين الأساليب الموجودة، برز التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) كنموذج محوري لتعزيز التفكير في نماذج اللغة.

على الرغم من النجاح التجريبي الواضح، أظهرت الدراسات الأخيرة رؤى مختلفة حول كيفية تحسين التعلم المعزز. فبينما تمتد بعض الآراء لتشير إلى أهمية إعطاء الأولوية لمراكز الرموز عالية الانتروبي (high-entropy token positions) خلال عملية التدريب، تحذر وجهات نظر أخرى من السماح لرموز منخفضة الاحتمالية بالسيطرة على تحديثات التدرجات.

بالنظر إلى هذه الديناميات، نقدم هنا مؤشر الدهشة النسبي (Relative Surprisal Index - RSI)، وهو معيار يستند إلى المعلومات يربط بين انتروبي الرموز واحتمالية اختيار كل رمز. يُظهر التحليل أن استخدام RSI يُحسن من أداء نماذج اللغة بشكل ملحوظ من خلال تنقيح الرموز بناءً على انتروبيتها.

قدمنا أيضًا طريقة جديدة تسمى اختيار RSI (RSI Selection - RSI-S)، والتي تعتمد على تصفية الرموز وفقًا لفترة RSI مستقرة، مما يضمن عدم وجود رموز زائدة أو رموز ذات دهشة عالية وغير مستقرة. من خلال التقييمات التجريبية، أظهرت هذه الطريقة زيادة في دقة النتائج بمعدل 2-3 نقاط مئوية مقارنة بنموذج GRPO. في المجمل، يُعد RSI بمثابة منظور واعد لتحسين نموذج RLVR وتطوير قدرات التفكير في نماذج اللغة الكبيرة.