بينما تحرك درجات التصنيف الجماعية تطوير الذكاء الاصطناعي (AI)، إلا أنها تحمل قدراً كبيراً من الضجيج في القياس، مما يؤدي إلى عدم وضوح موثوقية تلك التصنيفات في عكس الاختلافات الحقيقية في القدرات. في هذا السياق، أُدخل إطار عمل جديد لقياس الخريطة الكامنة في أنظمة مؤشرات الأداء الخاصة بالذكاء الاصطناعي.

تم تطبيق تحليل العوامل التأكيدي (Confirmatory Factor Analysis - CFA) ونظرية العمومية (Generalizability Theory) على أكثر من 4000 نموذج من قائمة النماذج الكبيرة (Open LLM Leaderboard). من خلال ذلك، تم تفكيك مصادر تباين الترتيب وتحديد عدة نقاط مهمة:

1. الهياكل المفترضة في الممارسة الحالية للتقارير تقلل من تقدير قوة العلاقات بين المؤشرات.
2. هناك أدلة على الاعتماد المحلي بين عناصر قائمة الترتيب، مما يضعف استخدام المؤشرات كأدوات قياس تحت أنظمة التقييم الحالية.
3. توضح بيانات المساهمين نسبة تباين أكبر ذات صلة بالتقييم (حوالي 9%) مقارنة بفئات الهندسة أو النشر.
4. تم العثور على ميل "قانون القياس الظاهر" غير موثوق (R_β=0.53)؛ على النقيض، كان ميل الحجم العام الكامن مستقراً للغاية عبر عناصر التحكم في النظام البيئي (R_g=0.97).

تقدم هذه الدراسة رؤى فريدة حول ديناميكيات المؤشرات، مثل تلك التي تعتمد على حجم النموذج الكبير (LLM) وأثر ممارسات ما بعد التدريب. كما تُقدّم تشخيصات قابلة للتطبيق لتحديد مدى موثوقية تصنيفات المؤشرات وكيف يمكن تحسين تصميم تلك المؤشرات.

بهذه الطريقة، يُتاح للباحثين وصناع القرار مزيد من الفهم بشأن كيفية تحسين آليات تقييم الذكاء الاصطناعي وتعزيز موثوقيتها. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.