أظهرت دراسة جديدة أن نماذج اللغة الكبيرة (LLMs) تُظهر ميلاً لتفضيل نتائجها الخاصة عند تقييم أداءها، مما يُثير تساؤلات حول نزاهة الأنظمة الآلية في العمليات التعليمية والتقييمية. ولكن، ما هو السبب وراء هذا السلوك؟ يصعب التفرقة بين سلوكيات النرجسية وبين المتغيرات التجريبية. فعند مقارنة ردود الأسئلة التي لم تنجح النماذج في الإجابة عليها، قد تتجلى النرجسية بشكل أكبر.
لتحليل هذا السلوك بدقة، تمت مقارنة توزيع الأصوات الخاص بمقيّم عندما يُقيّم ذاته مقابل عندما يُقيّم نموذجاً آخر. النتائج كشفت أن 51% فقط من الأمثلة التي تم العثور عليها في الأبحاث السابقة تُظهر دلالة إحصائية ضد فرضية العدم (null hypothesis)، مع 89.6% من إجمالي احتمالية التفضيل الذاتي تتبع هذا النمط.
ما يُعتبر مثيرًا للاهتمام هو قياس التقلّب في توزيعات الأصوات، مما يُظهر تداخل مُعتمد على عدم اليقين. وقد تمكنت هذه المنهجية من تعزيز التوثيق الدقيق في سياق الأبحاث المتعلقة بتحيز المقيّمين. بالنظر إلى أهمية هذه النتائج، يمكن أن يكون لهذه الملاحظات تأثير كبير على كيفية استخدامنا للنماذج اللغوية الكبيرة في المستقبل.
هل يقيم نماذج اللغة الكبيرة (LLMs) أنفسهم بدافع النرجسية؟ دراسة تكشف تفاصيل مثيرة!
بحث حديث يعرفنا بشيء غير متوقع عن نماذج اللغة الكبيرة (LLMs) وكيفية إصدارها الحكام. هل بالفعل تكشف هذه النماذج عن سلوك نرجسي عند تقييم ذاتها؟
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
