في عالم الذكاء الاصطناعي، يعد التعلم المعزز (Reinforcement Learning) مع مكافآت قابلة للتحقق (Verifiable Rewards) أحد أحدث الاتجاهات المثيرة. حيث أظهرت الأبحاث أنه يمكن لهذه الأساليب تعزيز قدرات النماذج اللغوية الكبيرة (Large Language Models) بشكل كبير بعد عملية التدريب.

إلا أن الطرق الحالية التي تعتمد على التعلم المعزز مع المكافآت القابلة للتحقق، غالبًا ما تعاني من مشكلة الكفاءة في استخدام العينات. حيث يتم الاعتماد على تقديرات نقاطية للمكافآت الناتجة عن عدد محدود من التجارب، مما يؤدي إلى ارتفاع تباين التقديرات، وانه collapsed variance، واستخدام غير فعال للردود المنتجة.

في العمل الجديد، قام الباحثون بإعادة صياغة مفهوم التعلم المعزز مع مكافآت قابلة للتحقق من منظور تقدير إحصائي، حيث تمثل المكافآت كعينات مأخوذة من توزيع يعتمد على السياسات، مما يجعل حساب المزايا المسألة تتعلق بتقدير توزيع المكافآت من بيانات محدودة.

وقد قدم الفريق نموذج تقدير مكافآت Beta-Bernoulli المخفضة (Discounted Beta-Bernoulli، DBB) الذي يستفيد من الإحصاءات التاريخية للمكافآت من أجل التوزيع غير الثابت. وعلى الرغم من كونه متحيزًا، يظهر التقدير الناتج تباينًا منخفضًا وثابتًا، ويتجنب نظريًا انهيار التقدير التبايني، كما يحقق خطأً متوسطًا منخفضًا بالمقارنة مع الأساليب التقليدية.

أظهرت التجارب الواسعة عبر ستة معايير تفكير داخل التوزيع وثلاثة معايير خارج التوزيع أن استخدام نموذج GRPO مع تقدير DBB يتفوق بانتظام على النماذج الأساسية، حيث حقق تحسينات ملحوظة في دقة النتائج.

بهذه الطريقة، يُظهر هذا البحث كيفية الاستفادة من القياسات التاريخية لتحقيق نتائج أفضل، مما يمثل نقلة نوعية في مجال الذكاء الاصطناعي ويتيح للنماذج الكثيرة الاستفادة من تقنيات أكثر فعالية.