تعتبر الرموز الخاصة بالتصنيف الدولي للأمراض (ICD) جوهر العملية الطبية، حيث تلعب دورًا حيويًا في فواتير الرعاية الصحية والتحليل السريري. ورغم أهمية هذا الترميز، إلا أن التحدي يتمثل في ضرورة دعم كل رمز بحجة نصية واضحة. لكن، المشكلة الأساسية تعود إلى أن معظم مجموعات البيانات العامة المتاحة توفر فقط تسميات الرموز دون أي تannotations للدليل، مما يحد بشكل كبير من قدرة الأنظمة على التعلم من الأدلة الموثوقة.

تسعى الدراسة الجديدة إلى تغيير هذا الوضع من خلال تقديم فكرة أن التوثيق الكثيف على مستوى المستندات ليس ضروريًا دائمًا لتعلم الترميز القائم على الأدلة. حيث يمكن للنماذج التعلم من أنماط الأدلة المحددة للرموز من خلال مقاطع نصية محلية واستخدام هذه الأنماط لدعم الترميز على مستوى المستندات.

بناءً على هذه الرؤية، تم اقتراح نموذج "Span-Centric Learning" (SCL)، وهو إطار تدريبي يعزز من قدرة النماذج اللغوية الضخمة (Large Language Models) على الترميز على مستوى المقاطع، وينقل هذه القدرات إلى المستندات الطبية الكاملة.

يعتمد SCL على مجموعة صغيرة من المستندات المعلّمة لتوجيه التعرف على الأدلة وتجميعها وتعيين الرموز، بينما يستفيد من مجموعة كبيرة من المقاطع النصية الخفيفة لتعزيز التفكير على مستوى المقاطع. هذه المقاطع النصية، بفضل حجمها الصغير، تعتبر قابلة للتوسع، ويمكن تحسينها بشكل إضافي من خلال العمليات التركيبية.

تحت نفس نموذج Llama3.1-8B، حقق هذا النهج تحسينًا بمقدار 8.2 نقطة في المقياس الكلي F1، بينما تكلفته التدريبية لا تتجاوز 20% من تكلفة التدريب باستخدام التقنيات التقليدية، مما يتيح تقديم أدلة دعم واضحة لكل رمز متوقع، مما يسهل عملية التدقيق والتعديل من قبل البشر.