تُشكل معالجة النصوص الطبية التحدي الأكبر للباحثين وأنظمة الرعاية الصحية، حيث يعتبر استخراج المعلومات السريرية الدقيقة من السرد الطبي الحر أولوية ملحة. في هذا السياق، يعاني العلماء من تباين المصطلحات الخاصة بالأمراض المناعية والأمراض المعدية، مما يحد من قدرة أنظمة معالجة اللغة الطبيعية العامة (Natural Language Processing - NLP) على التقاط المفاهيم الحيوية بمستوى دقيق.

استجابةً لهذه التحديات، تم تطوير نموذج مُخصص للتعرف على الكيانات (Named Entity Recognition - NER) يهدف لاكتشاف الكيانات المتعلقة بالأمراض داخل سياقات المناعة والأمراض المعدية. تم تجميع قاعدة بيانات مُعَّلمة يدوياً تحتوي على 371 تقرير حالة بالتعاون مع اثنين من الأخصائيين السريريين، وتحديد اثني عشر فئة للكيانات تشمل الظروف المناعية والمعدية، بالإضافة إلى الأعراض والوصف السريري.

شملت الدراسة تقييم استراتيجيات نمذجة متعددة، بما في ذلك بنية MedicalNER مع عدة تمثيلات خاصة بالرعاية الصحية، ونموذج تصنيف مُعتمد على BERT، وأنظمة NER قائمة على تقنية الزيرو شوت (Zero-shot). وقد حققت الأداء الأفضل نموذج قائم على البنية التحولية (Transformer)، المدرب على تمثيلات في مجال الطب، حيث سجلت أداءً برقم F1 يعادل 0.89، متفوقة باستمرار على الأساليب الأساسية والكلاسيكية. كما أثبت الجمع بين التمثيلات المتخصصة والتعليقات الخبراء قيمته في التقاط المصطلحات الدقيقة للأمراض وتحسين التعميم عبر نصوص طبية متنوعة.

في ضوء نتائج الدراسة، أثبت نموذج اللغويات LARGE Language Model (LLM) قدرات منخفضة تحت نفس بروتوكول التقييم، مما يعكس الصعوبات في إنتاج مخرجات دقيقة للكيانات المعقدة. يوفر النموذج الناتج طريقة منظمة لتحليل تقارير الحالات ويمكن أن يدعم المهام المستقبلية مثل تحديد الفئات، ومراقبة الأمراض، ودعم القرارات السريرية.