في عالم الصحة والطب، تعد الدقة في تصنيف المعلومات الطبية أمراً بالغ الأهمية، وبدون موارد كافية، يصبح هذا التحدي أكبر. هنا جاء الابتكار عبر إطار العمل الجديد ADMEDTAGGER، الذي يُعتبر جزءًا من مشروع أكبر يُعرف باسم ADMEDVOICE.

تمكن هذا الإطار من استخدام نموذج لغوي كبير مُدرّب مسبقًا على مجموعة ضخمة من النصوص، لتولي دور المعلم في تقطير المعرفة المتخصصة اللازمة لتوصيف النصوص الطبية باللغة البولندية. تم جمع مجموعة شاملة من النصوص الطبية تمثل خمس فئات سريرية: الأشعة، الأورام، القلب، ارتفاع ضغط الدم، وعلم patologii.

مع إدراك نقص الموارد المتاحة لتوصيف عدد كبير من النصوص، اتجه الباحثون إلى استخدام نموذج Llama3.1 المتعدد اللغات لتوصيف مجموعة كبيرة من النصوص الطبية البولندية. وعلى الرغم من محدودية موارد التوصيف، تم التحقق من جزء فقط من هذه العلامات لإنشاء مجموعة اختباري.

بعد ذلك، تم استخدام البيانات التي تم توصيفها لتدريب ثلاثة أنواع مختلفة من المصنفات المعتمدة على بنية BERT - نموذج DistilBERT المقطر، وBioBERT المعدل على البيانات الطبية، وHerBERT المعدل على مجموعة النصوص البولندية. وبين هذه النماذج، حقق نموذج DistilBERT أفضل النتائج، حيث وصل إلى درجة F1 أعلى من 0.80 لكل فئة سريرية، وفوق 0.93 لثلاث منها.

يمكن اعتبار المصنفات التي تم الحصول عليها بديلًا فعّالًا لنماذج اللغة الكبيرة، بفضل حجمها الأصغر بحوالي 500 مرة، واستهلاكها الأقل للذاكرة الرسومية بحوالي 300 مرة، وسرعة استنتاج أسرع بعدة مئات من المرات.