تتزايد في الآونة الأخيرة ادعاءات التفوق (State-of-the-Art - SOTA) في أبحاث الذكاء الاصطناعي (Artificial Intelligence - AI) والتعلم الآلي (Machine Learning - ML) بشكل ملحوظ. ومع أن هذه الادعاءات تستند عادةً إلى تقييمات مرجعية، حيث يتم تصنيف النماذج بناءً على مجموع النقاط عبر المهام المختلفة، إلا أن الفجوة بين تلك الادعاءات والأدلة الداعمة لها أصبحت قضية ملحة.

تعتبر قائمة التقييمات العامة أو المراكز الدنيا الأكثر وضوحاً في هذا السياق، إذ تظهر نفس الهيكلية في جداول الأبحاث في الأدبيات العلمية. ومع ذلك، فإن الأدلة المحدودة التي تُقدّم غالباً لا تدعم تلك الادعاءات القوية.

حسب دراسة سُلطت الضوء عليها في الأبحاث، تم التعرف على مرور الفجوة بين الادعاءات والأدلة في نظام تقييم الذكاء الاصطناعي. حيث إن المطالبة بالتفوق تحمل افتراضات ضمنية تتجاوز مجرد تفوق متوسط النقاط، وهو ما يشير إلى أن نموذجاً ما يتفوق بوضوح على الخيارات الأخرى في معظم المهام.

لكن، التحسين الهامشي في متوسط النقاط لا يعني بالضرورة تفوقاً حقيقياً، بل يشير فقط إلى مرتبة متوسطة عالية. وعند تحليل عشرة تقييمات عبر مجالات مختلفة من القوائم العامة، وُجد أنه في أكثر من نصف المقارنات بين النماذج الأفضل، لا تنطبق على الأقل خاصية واحدة يُعتقد أنها تشير إلى التفوق.

تشمل هذه الخصائص حجم الأثر المعنوي، والتناسق عبر المهام، أو متانة النموذج عند إزالة مجموعات البيانات. وغالباً ما تُدفع المكاسب الإجمالية بواسطة مجموعات بيانات شاذة، حيث تستمر هذه الهشاشة حتى في التقييمات التي تشمل العديد من المهام.

نؤكد في النهاية أن لغة الادعاءات يجب أن تعكس قوة الأدلة الكامنة. لا يتطلب ذلك إجراء تجارب إضافية، بل مجرد تقرير صادق عما تظهره النتائج، مما يتيح مقارنات أكثر دقة ووضوحًا بين النماذج.