في عصر تتزايد فيه اعتماد نماذج اللغة الكبيرة (Large Language Models) في الرعاية الصحية، أصبح من الضروري تقييم هذه النماذج بشكل دقيق. ولتجنب الفجوات الحالية في التقييم، تم تطوير إطار عمل مبتكر متعدد المجالات يقوم بتقييم أحد عشر نموذجاً حديثاً من نماذج اللغة الكبيرة عبر 690 سيناريو سريرياً يستعرض تسعة مجالات مختلفة وأكثر من 150 تصنيفاً فرعياً.

يتضمن الإطار الجديد تحويلات عدائية (adversarial transformations) حيث تم تقييم استجابات النماذج باستخدام منهجية تتكون من سبعة أبعاد، مما يجمع بين التقييم الآلي والتحقق البشري. أظهرت النتائج وجود تباين كبير في الأداء، حيث تراوحت الدرجات المتوسطة بين 0.791 و0.984، مما يشير إلى أن الدقة الإجمالية قد تخفي مخاطر هامة في سياقات طبية معينة.

علاوة على ذلك، كشفت النتائج أن العديد من الأنظمة ذات الأداء العالي قد فشلت بشكل كامل في سيناريوهات حرجة تتعلق بالسلامة، مما يعيد النظر في الطريقة التي نقيم بها موثوقية هذه النماذج. النماذج الأفضل أداءً مثل X-BAI وGPT-5 وClaude Opus 4.1 حققت درجات تفوق 0.97 مع تباين منخفض، ولكن الأداء يختلف بشكل ملحوظ عبر المجالات.

المهام المتعلقة بالمساواة أظهرت زيادة في الأخطاء بنسبة 10-20% عند تعديل الديموغرافيات، كما أن المراجعين البشريين تمكنوا من تحديد الفشل السريري الذي تم تجاهله من قبل التقييم الآلي. توضح هذه النتائج أن تباين الأداء والفشل في أسوأ السيناريوهات يوفران مؤشرات موثوقية أكثر أهمية من الدقة المتوسطة بمفردها.

لذا، يصبح من الأساسي دمج أساليب التقييم الهجينة التي تجمع بين الأتمتة ورقابة الأطباء لضمان تقييم دقيق للسلامة في الأنظمة المستخدمة في الرعاية الصحية.