تسير نماذج اللغة الكبيرة (Large Language Models - LLMs) بخطى سريعة نحو دخول المجال السريري، ولكن الاعتماد على معايير الدقة وحدها قد يؤدي إلى تجاهل أنماط الفشل التي تؤثر على سلامة المرضى. في دراسة نُشرت مؤخرًا، تم تقديم إطار عمل مبتكر يسمى AI-MASLD، يهدف إلى إجراء اختبار ضغط للنماذج السريرية.

استندت هذه الدراسة إلى منطق اختبارات الضغط الأيضي من علم الكبد لتقييم LLMs السريرية، حيث تم استخدام 240 حالة سريرية مع ستة محاور لخلل السرد لاختبار أداء سبع نماذج ضمن ظروف ضغط مزدوج. تم قياس الأداء من خلال ثلاثة مؤشرات: المؤشر الأيضي (Metabolic Index - MI)، معدل انقلاب الاضطرابات (Perturbation Flip Rate - PFR)، ومؤشر العدالة ضد الافتراضات (Counterfactual Fairness Index - CFI).

في ظل ظروف القاعدة النظيفة، كانت جميع النماذج تؤدي بشكل متساوٍ جيد. لكن تحت ضغط الروايات الواقعية، انحرفت الأداء بشكل حاد، وكشفت عن نوعين مختلفين من ظواهر الاستجابة للضغط. حيث أظهرت النماذج الكمية نوعا من التكييف الزائف، إذ أخفت معدلات الانقلاب المنخفضة انهيارًا وظيفيًا. وعلاوة على ذلك، أظهرت عملية التعديل الطبي العميق تدهورًا منهجيًا في الثبات المنطقي والعدالة واستخراج المعلومات. بالمقابل، تفوقت النماذج ذات الوزن المفتوح أو ساوت البدائل الملكية في كل جانب يتعلق بالأمان.

تؤكد هذه النتائج على أهمية اختبار ضغط الروايات كتكملة ضرورية للتقييم القائم على الدقة، مما يتيح للمهنيين في المجال الطبي اتخاذ قرارات أكثر أمانًا وفعالية.