تشكل نماذج اللغات الضخمة (Large Language Models) ثورة في مجالات متعددة، ومنها التعلم المعزز (Reinforcement Learning)، حيث تساهم في تصميم المكافآت بشكل يسهل scalability بشكل كبير. ومع ذلك، لا تعتبر المكافآت المولّدة تلقائيًا أهداف تدريب موثوقة. حيث انصب اهتمام الأبحاث السابقة على إنتاج وتطوير واختيار مكافآت محتملة، مع إغفال الجانب المهم حول مدى إمكانية التحقق من هذه المرشحات واستخدامها بشكل فعال خلال تحسين السياسات.

في دراسة حديثة، تم تسليط الضوء على مشكلة التحقق من المكافآت خلال عملية النشر، حيث تتم دراسة المكافآت المولدة كفرضيات مكافآت تعتمد على كفاءة السياسة الحالية والمرحلة التدريبية. تم اقتراح بروتوكول RHyVE، الذي يجمع بين التحقق الواعي للكفاءة والنشر الواعي للمرحلة، حيث يقارن بين مجموعات صغيرة من فرضيات المكافآت من نقاط تفتيش سياسات مشتركة، باستخدام تقنية التحقق قصيرة الأمد.

أظهرت التجارب أن تصنيفات المكافآت تكون غير موثوقة عند انخفاض الكفاءة، ولكن تصبح مفيدة بعد تجاوز حواجز معينة تعتمد على المهمة. في مهمة معالجة نادرة، أدت عملية النشر الواعية للمرحلة إلى تحسين الأداء الأقصى والمحافظة عليه تحت بروتوكول مقفل. كما أظهرت التجارب الخاصة بمكافآت المرشحين المولدة بواسطة نماذج اللغات الضخمة سلوكًا يعتمد على عائلات المرشحين: يمكن لمجموعات المكافآت المولدة أن تُظهر تغييرات في الفائزين اعتمادًا على المرحلة، ولكن لا يوجد جدول زمني ثابت للإحماء يعتبر مثاليًا بشكل عالمي.

تشير النتائج إلى أنه يجب دراسة توليد المكافآت ونشرها كمسائل مترابطة، إذ يجب التحقق من المكافآت المولدة ونشرها وفقًا لتغير كفاءة السياسة. مثل هذه الآلية ستحدث فرقا كبيرا في طريقة تحسين السياسات في عالم الذكاء الاصطناعي.