أصبحت نماذج اللغة الكبيرة (LLMs) تلعب دوراً حاسماً كأداة تقييم آلية، غير أن انحياز التفضيل الذاتي جعلها تعاني من مشكلات جدية تؤثر على موثوقيتها. يظهر هذا الانحياز عندما تفضل النماذج مخرجاتها الخاصة على حساب نماذج أخرى، مما يؤدي إلى تأثيرات سلبية في عدداً من المهام مثل ضبط التفضيلات وتوجيه النماذج.

استهدف الباحثون الخلل القائم من خلال طرح مقاربة جديدة تعتمد على استخدام "مؤشرات توجيه خفيفة الوزن"، حيث يتم ذلك في مرحلة الاستدلال دون الحاجة إلى إعادة تدريب النماذج. تم تطوير مجموعة بيانات منتقاة تهدف إلى التمييز بين الحالات التي يعد فيها التفضيل الذاتي مبرراً والأخرى غير المبررة.

و استخدم الباحثون طريقتين لبناء تلك المؤشرات: "إضافة تنشيط متباين" (Contrastive Activation Addition) وطريقة قائمة على التحسين. وكشفت النتائج أن مؤشرات التوجيه يمكن أن تقلل من انحياز التفضيل الذاتي غير المبرر بنسبة تصل إلى 97%، متفوقة بشكل ملحوظ على أساليب مثل التنبيهات (prompting) وتحسين التفضيلات المباشر.

ومع ذلك، كانت مؤشرات التوجيه غير مستقرة تجاه التفضيل الذاتي المشروع والاتفاق غير المنحاز، ما يبرز طبيعة انحياز التفضيل الذاتي الذي يمتد في اتجاهات متعددة وغير خطية. تشير هذه النتائج إلى أهمية وجود تدخلات أكثر قوة لتحسين دقة نماذج اللغة الكبيرة كقضاة، مما يفتح المجال أمام مزيد من الابتكارات والتطورات في هذا الاتجاه.