في عالم [الصحة](/tag/الصحة) والطب، تعد [الدقة](/tag/الدقة) في [تصنيف المعلومات](/tag/[تصنيف](/tag/تصنيف)-[المعلومات](/tag/المعلومات)) [الطبية](/tag/الطبية) أمراً بالغ الأهمية، وبدون [موارد](/tag/موارد) كافية، يصبح هذا التحدي أكبر. هنا جاء [الابتكار](/tag/الابتكار) [عبر](/tag/عبر) [إطار العمل](/tag/إطار-العمل) الجديد ADMEDTAGGER، الذي يُعتبر جزءًا من مشروع أكبر يُعرف باسم ADMEDVOICE.

[تمكن](/tag/تمكن) هذا الإطار من استخدام [نموذج لغوي كبير](/tag/[نموذج](/tag/نموذج)-لغوي-كبير) مُدرّب مسبقًا على مجموعة ضخمة من النصوص، لتولي دور المعلم في [تقطير المعرفة](/tag/[تقطير](/tag/تقطير)-[المعرفة](/tag/المعرفة)) المتخصصة اللازمة لتوصيف النصوص [الطبية](/tag/الطبية) باللغة البولندية. تم جمع مجموعة شاملة من النصوص [الطبية](/tag/الطبية) تمثل خمس فئات سريرية: الأشعة، الأورام، القلب، ارتفاع ضغط الدم، وعلم patologii.

مع [إدراك](/tag/إدراك) نقص الموارد المتاحة لتوصيف [عدد](/tag/عدد) كبير من النصوص، اتجه الباحثون إلى استخدام [نموذج](/tag/نموذج) Llama3.1 المتعدد [اللغات](/tag/اللغات) لتوصيف مجموعة كبيرة من النصوص [الطبية](/tag/الطبية) البولندية. وعلى الرغم من محدودية [موارد](/tag/موارد) التوصيف، تم [التحقق](/tag/التحقق) من جزء فقط من هذه العلامات لإنشاء مجموعة اختباري.

بعد ذلك، تم استخدام [البيانات](/tag/البيانات) التي تم توصيفها لتدريب ثلاثة أنواع مختلفة من [المصنفات](/tag/المصنفات) المعتمدة على بنية [BERT](/tag/bert) - [نموذج](/tag/نموذج) DistilBERT المقطر، وBioBERT المعدل على [البيانات](/tag/البيانات) الطبية، وHerBERT المعدل على مجموعة النصوص البولندية. وبين هذه النماذج، حقق [نموذج](/tag/نموذج) DistilBERT أفضل النتائج، حيث وصل إلى درجة F1 أعلى من 0.80 لكل فئة سريرية، وفوق 0.93 لثلاث منها.

يمكن اعتبار [المصنفات](/tag/المصنفات) التي تم الحصول عليها بديلًا فعّالًا لنماذج [اللغة](/tag/اللغة) الكبيرة، بفضل حجمها الأصغر بحوالي 500 مرة، واستهلاكها الأقل للذاكرة الرسومية بحوالي 300 مرة، وسرعة [استنتاج](/tag/استنتاج) أسرع بعدة مئات من المرات.