في عالم الذكاء الاصطناعي، لا تتوقف الابتكارات عن إدهاشنا، وأحدثها يأتي من مجموعة Relative Policy Optimisation (GRPO) التي أثبتت فعاليتها في تعديل نماذج اللغة لمهام الاستدلال. على الرغم من ذلك، كانت الطريقة التقليدية تتعامل مع كل موضع توكن وكل جولة بشكل متماثل، مما أدي إلى بعض القيود.

الآن، تم تقديم تحسينين رئيسيين لهذا النوع من الخوارزميات. الأول هو Adaptive-Horizon GRPO (AH-GRPO)، الذي يقوم بوزن تدرج السياسة لكل توكن باستخدام خصم يعتمد على القيم التراكمية للانتروبيا (Entropy) لتقليل الأفق الفعال عند عدم يقين النموذج. أما الثاني فهو Selective-Advantage AH-GRPO (SA-AH-GRPO)، الذي يطبق هذا الخصم فقط على الجولات ذات الميزة السلبية، مما يحافظ على مسارات النجاح الإيجابية دون تأثير.

تمت تجربة هذه الأساليب على معيار GSM8K للاستدلال الرياضي، باستخدام النموذجين Qwen 2.5-1.5B-Instruct وQwen 2.5-3B-Instruct المُعدلين بواسطة LoRA. وقد أظهرت النتائج أن SA-AH-GRPO تمكنت من تحقيق نسبة Pass@1 تصل إلى 0.858 على النموذج 3B، مع الحفاظ على نسبة 0.846 بعد 180 خطوة، بينما تم تقليل تباين التدريب إلى 0.0246، ما يمثل تخفيضاً بمقدار 3.6 مرة مقارنة بـ GRPO.

بفضل هذه التطورات، أصبح بالإمكان الحفاظ على إشارة التدرج الكاملة للحلول الصحيحة، ومنع انهيار الانتروبيا، مما يساهم بشكل كبير في استقرار التدريب. إن هذه الابتكارات تمثل انحيازا استقرائيا مدروسا لتطبيق التعلم التعزيزي مع مكافآت يمكن التحقق منها على المهام المعقدة.