في عالم يتطور فيه الذكاء الاصطناعي (AI) بسرعة، أصبح من الضروري فهم كيفية تقييم فاعلية نماذج اللغة الكبيرة (Large Language Models) بشكل صحيح. تقدم الأبحاث الحديثة فكرة جديدة تُعرف باسم "Capability Frontier"، التي تكشف كيف أن التقييمات الحالية (benchmarks) تعطي انطباعًا مضللًا عن أداء النماذج.

تقليديًا، تقوم التقييمات بإصدار تقارير عن دقة نموذج واحد في محاولة واحدة، وهو أمر يمكن أن يؤدي إلى تقليل تقدير أداء النماذج في الواقع، خاصةً تحت توزيعات البيانات المتنوعة. حيث أظهر الباحثون أنه من الممكن أن تحصل نماذج مختلفة على أسئلة صحيحة حسب تخصصاتها، مما يعني أنه وحتى عند استخدام ميزانية محددة، يمكن جمع نتائج متعددة مع الحفاظ على أفضلها.

لقد اجتاز البحث على 21 نموذجًا من نماذج اللغة الكبيرة عبر 16 benchmark معترف بها عالميًا، تشمل المهام المتعلقة بالبرمجة، التفكير، الطب، والحقائق. وكشف البحث عن أن تصحيح تقييم نموذج واحد أدى إلى تقليل معدل الخطأ بنسبة 54%، بينما قيادته على عمليات متكررة قد أسفرت عن تحسين بنسبة 82%، مما يتناسب مع التقييمات المتقدمة، مع خفض التكلفة بنسبة 85%.

علاوة على ذلك، أظهرت المحاكيات الاحتمالية المراقبة أن زيادة الفوضى في موضوع الاستفسارات يولد زيادة شبه ثابتة في الفجوة بين توجيه "الأوراكل" والنموذج الفردي الأفضل. تشير هذه النتائج إلى أن القدرات الجماعية لنماذج الذكاء الاصطناعي ستظل تحت التقدير بشكل كبير، مما يؤثر على تقييمها ونشرها في سياقات متعددة المجالات.

كما يبرز هذا البحث أهمية تبني نهج جديد في قياس أداء النماذج لمراعاة الفروق الشاسعة في الأداء عند التعامل مع بيانات متنوعة. هل نحن جاهزون لتغيير طريقة تقييمنا لأداء الذكاء الاصطناعي؟