في السنوات الأخيرة، شهدنا تزايدًا في استخدام نماذج اللغات الضخمة (Large Language Models) كأدوات تقييم آلية، حيث يتم منحها القدرة على إعطاء درجات عددية لمخرجات النماذج، وهو ما يعرف بـ LLM-as-a-Judge. ولكن، تتبنى الطرق التقليدية للتعلم المعزز (Reinforcement Learning) عادةً مكافآت ثنائية (مثل الدقة 0-1)، مما يغفل البنية الترتيبية المتأصلة في مهام الانحدار (regression tasks). على سبيل المثال، لا تعترف هذه الطرق بأن التنبؤ برقم 4 هو أفضل بشكل كبير من التنبؤ برقم 1 عندما تكون الحقيقة الأرضية هي 5.

ومن ناحية أخرى، تقتصر الطرق الحالية المعتمدة على الانحدار غالبًا على التهيئة الدقيقة الخاضعة للإشراف (Supervised Fine-Tuning)، مما يحد من قدرتها على استكشاف مسارات التفكير المثلى. لتجاوز هذه الفجوة، تم تقديم تقنية مُبتكرة تُعرف بـ REAL (REgression-Aware Reinforcement Learning)، وهي إطار عمل معتمد على التعلم المعزز مصمم لتحسين مكافآت الانحدار و proven أنه الأمثل لمؤشرات الارتباط.

تعتبر التحديات التقنية الرئيسية هنا أن الهدف من الانحدار يعتمد بشكل صريح على السياسة، مما يبطل طرق تدرج السياسة التقليدية. لمواجهة هذه التحديات، تم استخدام المُقَيِّم العام لتدرج السياسة، الذي يُسهل بشكل طبيعي عملية التحسين إلى مكونين تكميليين: (1) الاستكشاف عبر مسارات التفكير Chains-of-Thought، و (2) تحسين دقيق للتنبؤ بالنتيجة النهائية.

أظهرت التجارب الواسعة عبر أحجام النماذج (من 8B إلى 32B) أن REAL يتفوق باستمرار على معايير التهيئة الدقيقة المعتمدة على الانحدار وأيضًا على طرق التعلم المعزز القياسية، حيث تُظهر تحسينًا ملحوظًا في التعميم على معايير خارج النطاق. على سبيل المثال، على نموذج Qwen3-32B، تم تحقيق زيادة قدرها +8.40 في معامل بيرسون و+7.20 في معامل سبيرمان مقارنةً بقاعدة التهيئة الدقيقة، و+18.30/+11.20 مقارنة بالنموذج الأساسي.

تُبرز هذه النتائج القيمة الحرجة لدمج أهداف الانحدار في استكشاف التعلم المعزز من أجل تقييم دقيق لنماذج اللغات الضخمة.