في عالم الذكاء الاصطناعي المذهل، أصبحت النماذج اللغوية الضخمة (Large Language Models) تزداد حضوراً بشكل ملحوظ في عمليات تقييم الأداء، مع استخدام نماذجها لإنشاء مقاييس تقييم جديدة بنفسها. يشير تقرير جديد إلى أن هذه النماذج قد تعاني من مشكلة خطيرة تُعرف بالتـحيز الذاتي، حيث تقوم بتقييم أدائها بناءً على بيانات تم إنشاؤها بواسطة نفس النموذج، مما يؤدي إلى تقييمات منحازة.

استخدم الباحثون في دراستهم المعتمدة على الترجمة الآلية كنموذج اختبار، حيث أظهروا أن التحيز الذاتي ينشأ من مصدرين أساسيين: نموذج الاختبار (LLM-as-a-testset) والنموذج التقييمي (LLM-as-an-evaluator). عندما يتحد هذان المصدران، فإن التأثير يتضخم، مما يؤدي إلى نتائج غير دقيقة.

حتى عند إنشاء بيانات اختبار مع وجود ضوابط للتنوع، فإنه يظهر أن كل نموذج لديه اتجاهات أسلوبية ضمناً تؤدي إلى نتائج متجانسة ومنتجات خاصة بالنموذج، مما يرفع درجاته بشكل مبالغ فيه.

قام الباحثون بتقييم مدى تأثير زيادة تنوع النصوص الأصلية باستخدام مقياس التنوع المقترح، حيث ساعد ذلك في تقليل هذا التحيز. ولكن الأبعاد المثيرة للاهتمام هنا تُظهر أن التحيز الذاتي قوي بما يكفي لجعل كل نموذج يصنف نفسه في المركز الأول، متجاوزاً بذلك التصنيفات الناتجة عن توافق الأقران.

ومن المثير أيضًا أن هذه الظاهرة تمتد إلى المهام المفتوحة النتيجة في اختبارات المحادثات (Chatbot Arena). في ضوء هذه الاكتشافات، يتعين على المجتمع العلمي إعادة النظر في كيفية استخدام هذه النماذج في التقييمات.

ما رأيكم في هذا التوجه؟ هل تعتقدون أن التحيز الذاتي سيؤثر على مصداقية الذكاء الاصطناعي في المستقبل؟ شاركونا في التعليقات.