في عالم الخدمات المالية، يعد تقييم أداء نماذج الذكاء الاصطناعي (AI) أمرًا معقدًا يتجاوز الأداء العالمي المتوسط. ففي حين يمكن لنموذج معين أن يتألق في اختبارات معينة، قد يظهر ضعفًا كبيرًا في تطبيقات أخرى تتطلب مهارات محددة. للمعالجة هذه الفجوات، تم تقديم إطار عمل مبتكر يسمى "الإطار الميتا للتقييم" (Meta-benchmarking Framework) من قبل فريق بحثي متخصص.

هذا الإطار يقوم بتنظيم 452 معيارًا تم الإبلاغ عنها علنًا إلى 41 نشاط عمل عام مستند إلى مفهوم O*NET، وتجميعها في 38 مجال أعمال مصرفية تغطي الجوانب المختلفة مثل المبيعات والعمليات وإدارة المخاطر والدعم الفني.

اعتمد الباحثون على نظام أوزان تكاثري متقدم (Multiplicative Weighting Scheme) يعتمد على ثلاثة معايير رئيسية: التمييز (Discrimination) والتغطية (Coverage) والحداثة (Recency)، مما يضمن تقييم أفضل النماذج التي لا تزال مستخدمة بشكل نشط وتفصل بين الأداء المتفوق للموديلات. من خلال هذا النموذج، يتم إنتاج درجات نشاط العمل القابلة للمقارنة عبر المعايير المتعددة دون الحاجة إلى تطبيع الدرجات الخام.

كجزء من دراستهم، استعرض الباحثون 288 نموذجًا من 25 منظمة في لقطة عامة أُخذت في يونيو 2026، وقدموا تفاصيل شاملة حول المنهجية المستخدمة، التصنيف الكامل، والقرارات التصميمية، مما يتيح تكرار هذا approach من قبل المؤسسات التي تواجه تحديات مشابهة في اختيار النماذج والحوكمة.