تقارير الرعاية الصحية هي سلاسل من المعلومات الحيوية التي غالباً ما تكون متقطعة بين المؤسسات الصحية بسبب اللوائح المتعلقة بالخصوصية والحواجز البيانية. عندما يسعى المرضى للحصول على رعاية طبية في مستشفى آخر، يحملون معهم تقارير ورقية أو ممسوحة من زيارات سابقة، ما يمثل تحدياً في دمج السجلات الصحية الإلكترونية (EHR) والاستعراض الطويل الأمد.

بالإضافة إلى ذلك، فإن التطبيقات اللاحقة التي تعتمد على سجلات كاملة تعاني أيضاً، مثل إدارة المرضى والرعاية اللاحقة والدراسات الواقعية ومطابقة التجارب السريرية. في هذا السياق، تبرز أهمية تقنيات التعرف على النصوص (OCR) التي تستطيع رقمنة هذه التقارير، ولكن استخراج المعلومات بدقة لا يزال يشكل تحدياً كبيراً بسبب اختلاف طبيعة المستندات السريرية وجودة النصوص المستخرجة.

تمت صياغة هذه المشكلة كنموذج أسئلة واستخراج استنتاجي يعتمد على المفاتيح الأساسية خلال التقارير السريرية المشتقة من تقنيات OCR. إن المفاتيح الأساسية ليست ثابتة أو معروفة مسبقًا، مما يجعل من مساحة المفاتيح مفتوحة. يتم الحفاظ على مخزون المفاتيح الأساسية من خلال عملية التنقيب المتكررة، والتطبيع، والتجميع، والتحقق البشري الخفيف، وتقديم تغطية المفاتيح كمعيار لقياس كمال المخزون.

أظهرت التجارب باستخدام نموذج يعتمد على بنية BERT أداءً متزايداً عند استكشاف أكثر من 20 مستشفى، حيث سجل النموذج درجات F1 تصل إلى 0.839 و0.893 في مطابقات دقيقة وتسامح حدودي على التوالي، فور تغطية أفضل 90 مفتاحًا الأساسي.

توضح هذه النتائج أن تغطية المفاتيح تعتبر عاملاً مهماً في الأداء الشامل للنموذج. مع تغطية أفضل 90 مفتاحًا، تفوق نموذجنا على نموذج Qwen3-0.6B المعتمد على التعليم المفصل.

في الختام، تبرز الدراسة أهمية استخدام نماذج الذكاء الاصطناعي لتجاوز الحواجز التقليدية في البيانات الصحية وتحسين جودة الرعاية الصحية. فهل ستحدث هذه التكنولوجيا ثورة في مجال الرعاية الصحية؟