تُعتبر نماذج المكافآت (Reward Models - RMs) عنصراً محورياً في مواءمة نماذج اللغات الضخمة (Large Language Models - LLMs) مع تفضيلات البشر. غير أن هذه النماذج غالباً ما تتأثر بالعوامل غير المرغوبة مثل طول الاستجابة. تحاول الأساليب الحالية التي تتبنى التدخل أثناء الاستدلال التخفيف من هذه الانحيازات عبر التركيز على طول الاستجابة فقط، مما يؤدي إلى بعض التاثيرات السلبية على الأداء.

في بحثنا الجديد، نقدم تدخلات مدفوعة بالسببية بهدف معالجة عدة أنواع من الانحيازات في نماذج المكافآت أثناء عملية الاستدلال. يبدأ منهجنا بتحديد الخلايا العصبية (neurons) التي تتأثر بشدة مع سمات الانحياز المحددة مسبقاً، ثم نقوم بتطبيق تدخلات على مستوى الخلايا العصبية قادرة على كبح هذه الإشارات.

لقد أظهرنا فعالية طريقتنا من خلال تقييمها على مجموعة بيانات نماذج المكافآت، ووجدنا تخفيضاً في الحساسية تجاه العوامل غير المرغوب فيها عبر مجموعة متنوعة من أنواع الانحيازات، دون الحاجة إلى أي مساومات على الأداء. بالإضافة إلى ذلك، عند استخدامها لتدوين التفضيلات، أظهرت نماذج المكافآت الصغيرة (2B و7B) مع منهجنا، الذي يحرر أقل من 2% من الخلايا العصبية في نماذج المكافآت، قدرات متوافقة مع نماذج المكافآت المتقدمة (70B) على منصتي AlpacaEval وMT-Bench.

علاوة على ذلك، توضح التحليلات الإضافية أن إشارات الانحياز تُرمز بشكل أساسي بواسطة خلايا عصبية في الطبقات المبكرة، مما يساعد في فهم آليات استغلال الانحياز في نماذج المكافآت.