على مدى السنوات الأخيرة، أصبح استخدام نماذج الذكاء الاصطناعي كقضاة (LLM-as-a-Judge) أسلوبًا شائعًا لتقييم مخرجات نماذج اللغة، لكن العديد من القضاة الذكاء الاصطناعي تظهر لديهم تحيزات نظامية تؤثر سلبًا على موثوقية التقييمات. في دراسة جديدة نشرت في arXiv، تم إجراء تقييم شامل لمقارنة تسع استراتيجيات للتخفيف من التحيز عبر خمسة نماذج قضاة من أربع عائلات مزودين، وهي جوجل (Google) وأنثروبيك (Anthropic) وأوبن أي (OpenAI) وميتا (Meta).

تستند هذه الدراسة إلى ثلاثة معايير تجريبية تضم MT-Bench (n=400) وLLMBar (n=200) ونموذج مخصص (n=225) وأربعة أنواع من التحيز. تُظهر النتائج الرئيسية لهذه الدراسة أن:
(1) تحيز الأسلوب يُعد التحياز السائد (0.76-0.92 عبر جميع النماذج)، وهو ما يتجاوز بشكل كبير تحيز الموقع (<= 0.04)، ولكنه لم يحظَ بعد بالاهتمام الكافي من الباحثين.
(2) تفضل جميع النماذج الاقتضاب عند التعامل مع أزواج التوسع، لكن التحكم في الاقتطاع يؤكد أنها تميز الجودة عن الطول بدقة عالية (0.92-1.00)، مما يشير إلى أهمية التقييمات الحساسة للجودة بدلاً من التحيز البسيط للطول.
(3) أثبتت استراتيجيات التخفيف فوائدها، ولكنها تعتمد على النموذج: استراتيجيات الميزانية المشتركة حسنت بشكل كبير نموذج Claude Sonnet 4 بنسبة +11.2 نقطة مئوية (p < 0.0001)، مع توجهات إيجابية نحو نماذج أخرى.

تُظهر هذه النتائج أهمية تحسين دقة نماذج الذكاء الاصطناعي عند استخدامها كمقيمين.

إذا كنت مهتمًا بمزيد من التفاصيل حول منهجية البحث والبيانات المستخدمة، يمكنك زيارة [هذا الرابط](https://github.com/sksoumik/llm-as-judge) للاطلاع على الإطار التقييمي والبيانات التجريبية.