في عصر الذكاء الاصطناعي، تولي المؤسسات الطبية اهتمامًا متزايدًا لتطبيق نماذج اللغات الضخمة (Large Language Models) في تحسين جودة الوثائق السريرية. لكن كيف يمكن تقييم جودة النصوص السريرية المولدَة؟

تتطرق دراستنا إلى تقييم شامل للملاحظات السريرية التركيبية التي تم إعادة صياغتها باستخدام نماذج اللغات الضخمة، حيث يتضمن هذا التقييم ثلاثة جوانب رئيسية: التقييم الداخلي (Intrinsic Evaluationالتقييم الخارجي (Extrinsic Evaluation)، وتقييم الحقائق (Factuality Evaluation).

تستند هذه الدراسة على قاعدة بيانات MIMIC، حيث قمنا بتحليل مليون ملاحظة سريرية. أظهرت النتائج أن الملاحظات التركيبية قادرة على الحفاظ على المعلومات الأساسية والقدرة التنبؤية للتطبيقات الكبيرة، على الرغم من تغييرات لغوية كبيرة. لكن، لوحظ فقدان بعض التفاصيل الدقيقة، خاصةً في المهام مثل تشفير ICD.

للتغلب على هذا الفقدان، استنتجنا أن إعادة صياغة الملاحظات على شكل أجزاء بدلاً من الملاحظة الكاملة قد تقلل من الضياع في التفاصيل، على الرغم من أنها قد تقلل أيضًا من الدقة بفعل نقص السياق. من خلال التحليل الدقيق للأخطاء، اكتشفنا أن أخطاء الإنتاج غالبًا ما تعود لسوء فهم السياق السريرى، إضافة إلى الارتباك الزمني، وأخطاء القياس، والمزاعم المفبركة.

بالرغم من أن الملاحظات التركيبية تُظهر طبيعة غير مخصصة للمهام، إلا أنها أثبتت فعاليتها في تعزيز التدريب الخاص بالمهام النادرة مثل تشفير ICD. هذه النتائج تعكس أهمية ودور نماذج اللغات الضخمة في تحسين منتجات الرعاية الصحية.

في ختام هذا التقييم الشامل، يُظهر لنا الذكاء الاصطناعي تقييمًا مذهلاً يمكن أن يُحدث ثورة في كيفية تعاملنا مع البيانات السريرية. ما هي آراؤكم حول إمكانية استخدام الذكاء الاصطناعي في توليد نصوص طبية؟ شاركونا تجاربكم في التعليقات.