في وقت يتزايد فيه الاعتماد على نماذج اللغات الضخمة (LLMs) للإجابة على الاستفسارات المرتبطة بمجال الصحة، يظل خطر استخدامها في حالات طبية عالية المخاطر موضع تساؤل. هنا يبرز نموذج 'MedHarm'، الذي يمثل معيارًا جديدًا لتقييم سلامة هذه النماذج، حيث يغطي 1,100 استفسار طبي تتوزع عبر عشرة فئات حساسة تشمل علم السموم، علم الأدوية، التسمم الخفي، التخدير، والأضرار المحتملة للجنين.

ما يُميز 'MedHarm' عن المعايير الأخرى هو أنه يركز على تقديم استفسارات سريرية وتعليمية وتقنية حقيقية تتطلب الرفض أو الحذر بدلاً من تقديم إجابات مفيدة بشكل مباشر. تم تقييم 15 نموذجًا من نماذج اللغات الضخمة، تتنوع بين النماذج ذات الغرض العام والنماذج الطبية الخاصة، بالإضافة إلى أربعة نماذج حراسية تمثل أنظمة وقائية.

نتائج البحث تُظهر وجود فجوة كبيرة بين التوافق الظاهر وسلامة الأداء الطبي، حيث يمكن أن تُنتج النماذج المتوافقة ردود فعالة غير آمنة. بالإضافة إلى ذلك، قد يؤدي التخصيص الطبي إلى زيادة الخصوصية الضارة، بينما تعمل الأنظمة الخارجية على تقليل بعض الفشل لكنها قد تُدخل ضعفًا في الكفاءة والأمان.

تشدد هذه النتائج على أهمية الاختبار تحت ضغط الظروف الخاصة قبل استخدام نماذج اللغات الضخمة في التطبيقات الطبية الحساسة، وتستدعي الحاجة إلى اعتماد تقييمات أكثر تخصصًا لضمان الأمان والفائدة عند استخدام الذكاء الاصطناعي في الرعاية الصحية.