في عالم الذكاء الاصطناعي، تبرز أهمية تقييم سلوك النماذج اللغوية الكبيرة (Large Language Models) مثل التعاطف وضبط النفس. لكن التحدي الأكبر يكمن في التقييم الذاتي لهذه المزايا، حيث إن توافق الآراء البشرية حول مثل هذه الصفات يصل في الغالب إلى حدود 0.45، مما يثير تساؤلات حول موثوقية النتائج.

لذلك، اقترح الباحثون نموذجًا جديدًا يُعرف باسم 'نموذج التكرار أولاً'، والذي يركز على ضمان مصداقية التقييم من خلال أربعة معايير مستقلة:
1. **موثوقية الأداء** عبر قياسات متعددة (K runs).
2. **تكرار النتائج** عبر مجموعة متنوعة من الحكام المستقلين حسب البنى المعمارية.
3. **معايرة التدريبات السابقة** باستخدام حكام من فئات تدريب سابقة.
4. **توقعات مسجلة مسبقًا** قبل جمع أي بيانات اختبار.

بينما يتم تطبيق هذا النموذج على تقييم المرافق العاطفية، يتمكن الباحثون من إدخال التحسينات بناءً على بيانات حقيقية، حيث أسفر عن مجموعة من التقييمات في 9 أبعاد مختلفة، بدون تحديد مسبق لهذه الأبعاد.

تطبيق هذا النموذج على 49 نموذجًا من 8 عائلات مختلفة أظهر تفاصيل مهمة كانت مخفية في النتائج الإجمالية. على سبيل المثال، انخفضت نقاط 'النصيحة المتحفظة' بشكل ملحوظ في نموذج gpt-5 مقارنةً بالنموذج السابق gpt-4.1، مما يشير إلى وجود فروقات حقيقية تتجاوز الأرقام العامة.

كما استمر التقييم عبر 74 محادثة حقيقية، بلغ معامل العلاقة حوالي 0.91، مما يجعل هذا النموذج ليس فقط وسيلة لتقييم الأداء بل أداة للكشف عن حدود النماذج الحالية في السلوك.

من خلال هذا النموذج، نبدأ بفهم أعمق للسلوكيات التي قد تخفيها النتائج المجمعة. هل يمكن أن تكون هذه الطريقة الجديدة هي المفتاح لفهم أعمق لقدرات نماذج الذكاء الاصطناعي؟