مع تزايد أهمية حماية خصوصية المعلومات الصحية، يعتبر إزالة الهوية من النصوص السريرية ضرورة ملحّة تتيح الاستخدام الثانوي للسجلات الصحية الإلكترونية (EHRs). في هذا الإطار، قدّمت مجموعة من الباحثين قاعدة بيانات SHIELD (Synthetic Human-annotated Identifier-replaced Entries for Learning and De-identification)، وهي مجموعة متنوعة تضم 1394 ملاحظة سريرية تحتوي على 10505 نقاط بيانات لمعلومات صحية محمية (PHI) عبر تسع فئات مختلفة.

تم بناء SHIELD باستخدام تقنيات العينة لتنوع تغطية البيانات، حيث تم الاعتماد على تقييم بشري للوصول إلى جودة عالية. علميًا، تم تقييم أربعة نماذج لغوية ضخمة (LLMs) — اثنان ملكيان واثنان مفتوحا المصدر — لتحديد أعلى مستوى للأداء. هذه النماذج تم تقطيرها (distillation) إلى نماذج لغوية صغيرة (SLMs) يمكن نشرها محليًا، مما يسهل على المؤسسات استخدام هذه التكنولوجيا بكفاءة.

تشير التحليلات التوزيعية باستخدام مقاييس مثل Frechet Text Distance وJensen-Shannon Divergence إلى أن قاعدة بيانات SHIELD تحتل مساحة فريدة في فضاء المفردات والتضمينات البيوميدية مقارنةً بالمراجع القديمة. كما أظهر النموذج المحسن أنه يمكنه تحقيق دقة تصل إلى 0.88 واسترجاع لمستوى النطاق يصل إلى 0.86 على الأجهزة القياسية، مما يعكس فعالية هذه النماذج في معالجة بيانات الصحة العامة.

علاوة على ذلك، استُخدمت هذه النماذج في تقييمات متعددة، مما أظهر أن النماذج المدربة على التنوع تستطيع التعميم بشكل جيد على البيانات العامة، بينما تبقى الكيانات الخاصة بالمؤسسات تحديًا في النقل. وهذا يشير إلى أن أفضل استخدام للنموذج يتطلب الجمع بين نماذج ذات تغطية واسعة مع نماذج متخصصة لملحوظات ذات حجم كبير.

في ختام البحث، أعلنت المجموعة عن نشر قاعدة بيانات SHIELD ونموذج DeBERTa v3 المقطر، مما يسهل على الباحثين والشركات تبني هذه التقنية لتحسين كفاءة إزالة الهوية.