في عالم الذكاء الاصطناعي، تلعب نماذج المكافآت المستندة إلى تفضيلات البشر دوراً أساسياً في توجيه نماذج اللغات الكبيرة (LLMs) من خلال التعلم المعزز من التغذية الراجعة البشرية. ومع ذلك، فإن هذه النماذج غالباً ما تكون عرضة لمخاطر التلاعب بالمكافآت بسبب عوامل متعددة مثل الضوضاء في التقييمات والانحيازات النظامية التي قد تؤثر على طول الردود أو أسلوبها.

للتغلب على هذه التحديات، يشرع الباحثون في تقديم نموذج بايزي غير سالب (Bayesian Non-Negative Reward Model - BNRM) الذي يعد إطاراً متقدماً لنمذجة المكافآت. يعتمد هذا النموذج على دمج تحليل العوامل غير السالبة في نموذج تفضيلات برادلي-تيري (Bradley-Terry).

يتميز نموذج BNRM بأنه يمثل المكافآت من خلال عملية توليد عوامل خفية غير سالبة ونادرة، تعمل على مستويين متكاملين: حيث تتيح المتغيرات الخفية الخاصة بكل حالة تمثيلات منفصلة للمكافآت، في حين يعمل الندرة على العوامل الخفية العالمية كآلية ضمنية لتقليل الانحيازات وتجنب الارتباطات الكاذبة.

بتجميع هذا الهيكل المتمركز حول إزالة التداخل ومن ثم تقليل الانحياز، يصبح التعلم من المكافآت أكثر موثوقية ومعرفة بالشكوك. لتوسيع نطاق نموذج BNRM ليشمل نماذج اللغات الكبيرة الحديثة، تم تطوير شبكة استدلال متغيرة محكمة من خلال تمثيلات نماذج عميقة، مما يسمح بتدريب فعال من البداية إلى النهاية.

تشير النتائج التجريبية الواسعة إلى أن نموذج BNRM يقلل بشكل كبير من مشكلة الإفراط في تحسين المكافآت، يحسن من القدرة على مقاومة التغيرات في التوزيع، ويقدم تمثيلات مكافآت أكثر قابلية للتفسير مقارنة بأفضل المعايير التقليدية.