في عالم تتزايد فيه أهمية الذكاء الاصطناعي (AI)، تعد تقييمات الأداء العامة لهذه الأنظمة مؤشرات حيوية، ولكنها غالباً ما تتم قراءتها على أنها قوائم نهائية قد تفتقر للشفافية. تشير الأبحاث الجديدة إلى أن هذه التقييمات تستند إلى سلسلة زمنية انتقائية تكون مشوهة بسبب قواعد التقرير، وتعديلات المعايير، ونقص البيانات.

تتضمن المصادر التي تم تحليلها LiveBench وOpen LLM Leaderboard v2، حيث تعتبر السجلات الطويلة لهذه المرتبيات نقطة انطلاق أساسية. توفر LMArena اختبارًا لضغوط التفضيلات، بينما تساهم كل من GAIA وtau-bench بصورة محدودة في اختبارات الأداء. يشكل هذا مجتمعا مشكلة استنتاج بايزي (Bayesian Inference)، حيث يمكن لنموذج نهائي محدد أن يتوافق مع تاريخين سابقين مختلفين، مما يؤدي إلى الوصول إلى نتائج زمنية متباينة.

عند إجراء مقارنات سعرية صناعية، تختلف أدوات التشخيص وفقًا لطرق المراقبة المختلفة، ما يؤكد على عدم قوة نموذج الحدود الواعي باختيار المتقدمين. هذه المشاكل تتجسد في صعوبة التنبؤ بالتحقيقات الموضوعية ونقل التفضيلات، مما يسفر عن رفض بوابات المراجعة القوية لادعاءاته.

تظهر الحلول المقترحة، والتي تتضمن بروتوكولات الأرشفة والتحكيم، كيف يمكن إعادة بناء تاريخ التقييمات العامة وفصل الحدود الزمنية الموثقة، مما يساعد على الكشف عن ادعاءات الحدود غير المدعومة. تلك الخطوات تعتبر ضرورية لخلق بيئة تقييمية أكثر شفافية ودقة، مما يعزز ثقة المجتمع في نتائج الذكاء الاصطناعي ويدفعه قدمًا نحو الابتكار المسئول.