في عالم الذكاء الاصطناعي المتسارع، يعتمد الكثير من الباحثين على تقييمات لقدرات النموذج التعليمي المتقدم (LLM). ومع ذلك، فقد أظهرت دراسة جديدة أن الكثير من هذه التقييمات تعكس في الواقع معلومات غير دقيقة حول ما يمكن للأنظمة الحالية فعله. فلدينا فجوة كبيرة تُعرف بـ 'فجوة النشر الإحصائي'، حيث تشير إلى الفارق بين ما يمكن لنماذج الذكاء الاصطناعي القديمة أن تقوم به وما تقدمه النماذج الحديثة.

قام الباحثون بتحليل 112,303 سجلً من الأبحاث المتعلقة بالنماذج التعليمية، ووجدوا أن النماذج الحالية غالباً ما تقيم بقدرات تقل بمقدار 10.85 على مقياس قدرات الذكاء الاصطناعي. بالمقابل، أظهرت النتائج أن الفجوة تزداد سنوياً بمعدل 5.53 من النقط.

وما هو أكثر إثارة للدهشة، أن الدراسة كشفت أن 3.2% فقط من الملخصات تشير إلى حالة التفكير في النماذج القادرة على التفكير، بينما 52.5% من الدراسات كانت تصف النتائج بشكل عام تحت مسمى 'الذكاء الاصطناعي' دون تفاصيل دقيقة عن النماذج التي تم تقييمها.

وفي إطار مقترحات لتحسين هذا الوضع، اقترح الباحثون فرض أسس تحريرية تفرض الكشف عن إعدادات النموذج والتوزيع المالي لتسهيل الوصول إلى واجهات برمجة التطبيقات (API). كما قدموا قائمة مراجعة بعنوان 'VERSIO-AI' من 13 نقطة لضمان دقة التقييمات الأكاديمية.

هذا التحليل يفتح باب النقاش حول كيفية تحسين الشفافية والدقة في تقارير الذكاء الاصطناعي. كيف ترى أهمية هذه النتائج لمستقبل أبحاث الذكاء الاصطناعي؟ شارك رأيك في التعليقات!