في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (LLM) من الأدوات الرئيسية المستخدمة في التقييم التلقائي. ولكن، هل هي فعلاً موثوقة كما يبدو؟ تظل الأساليب الحالية للتحقق من موثوقية هذه النماذج موجهة نحو المخرجات الملاحظة فقط، مما يوفر رؤى محدودة حول أداء هذه النماذج كأدوات قياس مستقرة وموثوقة.

لذا، تم تطوير إطار تشخيصي يتكون من مرحلتين لتقييم موثوقية هذه النماذج، مستنداً إلى نظرية استجابة العناصر (Item Response Theory - IRT). يعتمد هذا الإطار على نموذج الاستجابة المتدرجة (Graded Response Model - GRM) ويعالج موثوقية التقييم على بُعدين متكاملين: الأول هو "الاتساق الداخلي"، الذي يُعرف باستقرار سلوك القياس تحت تغيرات المحفزات، والثاني هو "المواءمة البشرية"، الذي يقيس مدى توافق التقييمات مع تقييمات البشر.

من خلال إجراء دراسات عملية على نماذج متعددة من القضاة LLM، أظهرت النتائج أن استخدام نموذج IRT-GRM يمكن أن يوفر إشارات قابلة للتفسير لتشخيص التقييمات بشكل منهجي. هذه الإشارات تقدم توجيهات عملية للتحقق من موثوقية نموذج LLM كقاضٍ وتساعد في تحديد الأسباب المحتملة لعدم الموثوقية.

في الختام، يمكن اعتبار هذا الإطار خطوة هامة نحو تعزيز موثوقية تقييمات الذكاء الاصطناعي وتوفير ثقة أكبر في النتائج التي توفرها هذه النماذج. هل تعتقد أن الذكاء الاصطناعي سيحقق موثوقية أكبر في المستقبل؟ شاركونا آراءكم في التعليقات!