في عالم الذكاء الاصطناعي وتحديداً نماذج اللغات الكبيرة (LLM)، تلعب نماذج المكافآت دوراً حاسماً في تشكيل سلوك النماذج لضمان توافقها مع متطلبات المستخدمين. يعتمد هذا التوافق على استخدام ما يعرف بفقدان برادلي-تيري (BT loss)، وهو إطار عمل يتعلم من البيانات الثنائية التي تتضمن استجابات مختارة وأخرى مرفوضة.

في هذه الدراسة الجديدة، تم تحليل ميل خفض فقدان BT إلى إشارة تعليمات مضللة ناتجة عن انحياز المسافة في تمثيلات النماذج. حيث أظهر الباحثون أن معايير الانحدار الخاصة بفقدان BT تتأثر بعنصرين رئيسيين: (1) خطأ التوقع الذي يتمثل في الفرق بين المكافآت المتوقعة للاختيارات المرفوضة والمقبولة، و(2) المسافة التمثيلية بين الزوجين كما يقاس في مجال المخرجات للطبقة النهائية.

وعلى الرغم من أن العنصر الأول يعكس إشارة التدريب المطلوبة، فإن العنصر الثاني يمكن أن يؤثر سلباً على حجم التحديثات ويؤدي إلى تعلم غير متناسق. في الواقع، إذا كانت الأزواج ذات المسافة التمثيلية الصغيرة غالباً ما تتلقى تحديثات ضعيفة للغاية، فإن الأزواج ذات المسافة الكبيرة تتلقى تحديثات قوية بشكل مفرط. هذا الاختلاف يعقد الأمور ويجعل من الصعب تحقيق التوازن في التعلم، خصوصاً في الحالات التي تتطلب تمييزات دقيقة.

للتغلب على هذا التحدي، يقترح الباحثون تقنية جديدة تُدعى NormBT، وهي Scheme معيارية تعتمد على التحسين التكيفي للأزواج. تقوم هذه التقنية بإعادة قياس التحديثات لتحقيق توازن بين تأثيرات التمثيل وتركز إشارات التعلم على خطأ التوقع. NormBT هي تعديلات خفيفة الوزن على فقدان BT مع تأثير بسيط على الأداء الإجمالي.

عبر مجموعة متنوعة من قواعد بيانات لعلوم الحاسوب، أثبتت NormBT أنها تحسن أداء نماذج المكافآت بشكل مستمر، مع زيادات ملحوظة تتجاوز 5% في فئة Reasoning ضمن RewardBench، والتي تحتوي على العديد من الأزواج التي تتطلب دقة متناهية.