في عالم نماذج اللغة المتقدمة، أصبح قياس الدقة من خلال موجه واحد (Single-Prompt Accuracy) الطريقة الرائجة لتقييم الأداء، لكن هذه الطريقة قد تغفل فشلاً موثوقياً يمكن أن يكون له عواقب كبيرة. أجرى الباحثون دراسة شاملة لتقييم 15 نموذجاً مفتوح الوزن، مع التركيز على 10 نماذج تعليمية عبر خمسة معايير تصنيفية ومنطقية، حيث تم استخدام خمسة أنواع مختلفة من الموجهات لكل نموذج.

تناولت الدراسة مجموعة من التحليلات التي شملت قياس الدقة، وتقويم احتمالية الرموز، ومعدل الثقة اللفظية، وواجهة التحليل اللفظي، فضلاً عن تغيير الموجهات.

أظهرت النتائج ثلاثة جوانب رئيسية تدعو للتأمل. أولاً، يمكن أن يؤثر تصميم التقييم بشكل ملحوظ على النتائج. إذ أن تغيير تعريف خطأ التوقع المتوقع (Expected Calibration Error) من تعريف عادي إلى تعريف يتيح العوامل الأساسية يغير التقييم بمعدل متوسط يصل إلى 0.149. وفي حالة مثيرة، أدى استخدام موجه سلسلة الأفكار (Chain-of-Thought) مع مقيم أول حرف إلى خفض الدقة الظاهرة بنسبة تتراوح بين 72-88% عبر النماذج الرئيسية.

ثانياً، إن الإشارات الخاصة بالثقة هشة بشكل غير متوقع. ففي اختبار MMLU-Pro، كانت جميع النماذج الرئيسية تشير إلى ثقة تفوق بكثير دقتها الفعلية واحتمالية الرموز على نفس الصفوف، مما يبرز التفاوت في القياسات.

ثالثاً، لا تتبّع متانة الموجهات بشكل موثوق عدد المعاملات في النماذج. ومع ذلك، فإن العلاقة بين حجم النموذج وانتشار تغيير الموجه تتراوح بين -0.244 إلى 0.474 عبر المعايير.

هذه النتائج تسلط الضوء على أهمية الاعتراف بأن استنتاجات الموثوقية لنماذج اللغة الصغيرة لا تعتمد فقط على النموذج نفسه، بل أيضاً على مسار التقييم المستخدم. نوصي بضرورة الإبلاغ بشكل صريح عن التعريفات الخاصة بالمعايرة، ومنطق المقيم، وملاءمة التحليل اللفظي، ومتانة الموجهات عند تقديم مزاعم الموثوقية.