في عالم الذكاء الاصطناعي، تعد نماذج تقييم أداء الأجهزة العميقة (Deep Learning Models) عاملاً محورياً لتطوير تقنيات جديدة. ومع ذلك، هناك قلق مستمر حول مدى تأثير الأساليب السطحية والتحيزات عند تقييم هذه النماذج. تظهر دراسة جديدة نشرت على موقع arXiv أن مقارنة النماذج الثنائية (Pairwise Comparisons) مع أساليب التجميع مثل نموذج إيلون (Elo) يمكنها تعزيز دقة التقييم.

لقد أظهرت النتائج أن ترتيب النماذج الناتجة عن هذه المقارنات يتوافق بشدة مع الترتيبات المبنية على الحقائق، خصوصاً عندما تتوفر هذه الحقائق للمقارنة. من خلال تحويل خمسة معايير معروفة إلى تقييمات ابتكارية حرة، توصل الباحثون إلى أن ترتيبات إيلون تحقق معامل ارتباط سبيرمان (Spearman correlation) يتجاوز 0.9 مع الترتيبات الدقيقية، مما يدل على تفوقها الجلي في تقييم النماذج الضعيفة.

من المثير للاهتمام، أن التأثيرات الناتجة عن الأسلوب وانحياز القاضي كانت لها نتائج طفيفة فقط على تصنيفات النماذج، على الرغم من أن العديد من الأحكام كانت تتم على أزواج من الإجابات حيث كانت كلتا الإجابتين صحيحتين أو خطأ. وفي حالات التي تتم المقارنة بين الإجابات الصحيحة، وجد الباحثون أن التكرار بعد الإجابة النهائية (echo) كان دافعاً أساسياً لتفضيل القضاة وساهم في تعزيز النتائج بشكل واضح.

تعتبر هذه النتائج قيمة للغاية، حيث توفر رؤى جديدة في كيفية تحسين التقييمات الناتجة عن نماذج الذكاء الاصطناعي وتقديم نتائج دقيقة تتجاوز العوامل السطحية والتأثيرات الذاتية.