في العقد الأخير، أصبح الذكاء الاصطناعي (Artificial Intelligence) يرتبط بشكل متزايد بالرعاية الصحية، حيث تم نشر نماذج الذكاء الاصطناعي في بيئات إكلينيكية حية يتطلب منها أداءً موثوقًا عبر سير عمل معقدة. وتشير التحديات إلى ضرورة وجود معايير قياسية (Benchmarks) تتيح قياس ما يمكن للنموذج تحقيقه بشكل قابل للتكرار والمقارنة.

التحدي الأساسي في الذكاء الاصطناعي في المجال الصحي لا يقتصر على الأداء فحسب، بل يتعلق بعدم وجود طرق منهجية لقياس الموثوقية والسلامة والأهمية الإكلينيكية في الظروف الواقعية. تُختبر معظم المعايير الحالية ما يعرفه النموذج، لكن القليل منها يقيم ما إذا كان يمكن أن يؤدي بموثوقية ودون فشل عبر التعقيدات الحقيقية للمهام الإكلينيكية.

تظهر الدراسات أن النماذج المتطورة قد تحقق درجات قريبة من الكمال في اختبارات الترخيص الطبي، ولكن عند تقييمها عبر المهام الإكلينيكية الواقعية، ينخفض الأداء بشكل حاد، حيث حصلت بعض المهام على درجات تتراوح بين 0.74-0.85 في التوثيق، و0.61-0.76 في دعم اتخاذ القرارات السريرية، و0.53-0.63 في المهام الإدارية وسير العمل.

تؤدي درجات المعدلات العالية إلى انطباع زائف عن جاهزية النشر، ويتسع الفجوة بين الأداء والفائدة كلما تولى نظام الذكاء الاصطناعي أدوارًا إكلينيكية أكثر أهمية. في غياب إطار عمل مُحدد لتصميم المعايير، لا يمكن للمجال تحديد ما إذا كان الأداء الضعيف يعكس قيود النموذج أو إخفاقات في كيفية قياس الأداء.