تتزايد في الآونة الأخيرة ادعاءات التفوق (State-of-the-Art - SOTA) في [أبحاث](/tag/أبحاث) [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) ([Artificial Intelligence](/tag/artificial-intelligence) - [AI](/tag/ai)) والتعلم الآلي ([Machine Learning](/tag/machine-learning) - [ML](/tag/ml)) بشكل ملحوظ. ومع أن هذه الادعاءات تستند عادةً إلى [تقييمات](/tag/تقييمات) مرجعية، حيث يتم [تصنيف](/tag/تصنيف) [النماذج](/tag/النماذج) بناءً على مجموع النقاط [عبر](/tag/عبر) المهام المختلفة، إلا أن [الفجوة](/tag/الفجوة) بين تلك الادعاءات والأدلة الداعمة لها أصبحت قضية ملحة.

تعتبر قائمة [التقييمات](/tag/التقييمات) العامة أو المراكز الدنيا الأكثر وضوحاً في هذا السياق، إذ تظهر نفس الهيكلية في جداول [الأبحاث](/tag/الأبحاث) في الأدبيات العلمية. ومع ذلك، فإن [الأدلة](/tag/الأدلة) المحدودة التي تُقدّم غالباً لا تدعم تلك الادعاءات القوية.

حسب [دراسة](/tag/دراسة) سُلطت الضوء عليها في الأبحاث، تم [التعرف](/tag/التعرف) على مرور [الفجوة](/tag/الفجوة) بين الادعاءات والأدلة في نظام [تقييم الذكاء الاصطناعي](/tag/[تقييم](/tag/تقييم)-الذكاء-الاصطناعي). حيث إن المطالبة بالتفوق تحمل افتراضات ضمنية تتجاوز مجرد تفوق متوسط النقاط، وهو ما يشير إلى أن نموذجاً ما يتفوق بوضوح على الخيارات الأخرى في معظم المهام.

لكن، [التحسين](/tag/التحسين) الهامشي في متوسط النقاط لا يعني بالضرورة تفوقاً حقيقياً، بل يشير فقط إلى مرتبة متوسطة عالية. وعند [تحليل](/tag/تحليل) عشرة [تقييمات](/tag/تقييمات) [عبر](/tag/عبر) مجالات مختلفة من القوائم العامة، وُجد أنه في أكثر من نصف [المقارنات](/tag/المقارنات) بين [النماذج](/tag/النماذج) الأفضل، لا تنطبق على الأقل خاصية واحدة يُعتقد أنها تشير إلى التفوق.

تشمل هذه الخصائص حجم الأثر المعنوي، والتناسق [عبر](/tag/عبر) المهام، أو [متانة](/tag/متانة) النموذج عند إزالة [مجموعات البيانات](/tag/مجموعات-[البيانات](/tag/البيانات)). وغالباً ما تُدفع المكاسب الإجمالية بواسطة [مجموعات بيانات](/tag/مجموعات-[بيانات](/tag/بيانات)) شاذة، حيث تستمر هذه الهشاشة حتى في [التقييمات](/tag/التقييمات) التي تشمل العديد من المهام.

نؤكد في النهاية أن [لغة](/tag/لغة) الادعاءات يجب أن تعكس [قوة](/tag/قوة) [الأدلة](/tag/الأدلة) الكامنة. لا يتطلب ذلك إجراء [تجارب](/tag/تجارب) إضافية، بل مجرد تقرير صادق عما تظهره النتائج، مما يتيح مقارنات أكثر [دقة](/tag/دقة) ووضوحًا بين [النماذج](/tag/النماذج).