في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (Large Language Models) من الابتكارات الرائدة. ولكن كيف يمكن تقييم دقتها واستقرارها خلال المهام البرمجية؟ تشير الدراسات الحديثة إلى وجود فجوة كبيرة بين معدل النجاح الفعلي والتغطية بدون إعادة المحاولات. وبالتحديد، أفادت نتائج البحث بأن هذه الفجوة قد تصل إلى 17.8 نقطة مئوية، وخاصةً بالنسبة للنماذج ذات الأداء المتوسط.

تسلط الدراسة الضوء على أهمية الاستقرار في النتائج، حيث لا تقتصر التقييمات التقليدية على دقة النسخة الواحدة أو النجاح عند المحاولات المتكررة. في العديد من الاستخدامات الحقيقية، يحتاج المطورون إلى نتائج مستقرة وثابتة تحت نفس وصف المهمة. من خلال تجربة حديثة تناولت 100 مشكلة على نمط LeetCode، تم تقييم 16 نموذجاً من خمس عائلات مزودين، باستخدام بروتوكول جديد لتقييم النتائج المتكررة.

على الرغم من أن معدل النجاح ومعدل الاستقرار قد أظهروا ارتباطاً قوياً (r=0.985)، إلا أن تصنيف النماذج اختلف بشكل كبير عندما تمت مراعاة الفجوة بين النجاح والتغطية بدون إعادة. مما يشير إلى أن دقة النتائج وحدها ليست كافية، ويجب دمج تقييم استقرار النتائج لمهام توليد النصوص المعتمدة على التعليقات التوضيحية.

إذن، كيف ستؤثر هذه النتائج على طرق تقييم نماذج الذكاء الاصطناعي في المستقبل؟