أظهرت دراسة جديدة أن نماذج اللغة الكبيرة (LLMs) تُظهر ميلاً لتفضيل نتائجها الخاصة عند تقييم أداءها، مما يُثير تساؤلات حول نزاهة الأنظمة الآلية في العمليات التعليمية والتقييمية. ولكن، ما هو السبب وراء هذا السلوك؟ يصعب التفرقة بين سلوكيات النرجسية وبين المتغيرات التجريبية. فعند مقارنة ردود الأسئلة التي لم تنجح النماذج في الإجابة عليها، قد تتجلى النرجسية بشكل أكبر.

لتحليل هذا السلوك بدقة، تمت مقارنة توزيع الأصوات الخاص بمقيّم عندما يُقيّم ذاته مقابل عندما يُقيّم نموذجاً آخر. النتائج كشفت أن 51% فقط من الأمثلة التي تم العثور عليها في الأبحاث السابقة تُظهر دلالة إحصائية ضد فرضية العدم (null hypothesis)، مع 89.6% من إجمالي احتمالية التفضيل الذاتي تتبع هذا النمط.

ما يُعتبر مثيرًا للاهتمام هو قياس التقلّب في توزيعات الأصوات، مما يُظهر تداخل مُعتمد على عدم اليقين. وقد تمكنت هذه المنهجية من تعزيز التوثيق الدقيق في سياق الأبحاث المتعلقة بتحيز المقيّمين. بالنظر إلى أهمية هذه النتائج، يمكن أن يكون لهذه الملاحظات تأثير كبير على كيفية استخدامنا للنماذج اللغوية الكبيرة في المستقبل.