في خطوة رائدة نحو تحسين مجال ربط الكيانات الطبية، تم تقديم نظام SynCABEL (Augmentation for Biomedical Entity Linking) كإطار يعمل على معالجة واحدة من أكبر العقبات في ربط الكيانات الطبية بإشراف بشري: نقص البيانات المعنونة من قبل الخبراء. تعتمد تقنية SynCABEL على نماذج لغوية ضخمة (Large Language Models) لإنتاج أمثلة تدريبية اصطناعية غنية بالسياق لجميع المفاهيم المرشحة في قاعدة المعرفة المستهدفة، مما يوفر إشرافاً واسع النطاق دون الحاجة للتعليق اليدوي.

أظهرت التجارب أن SynCABEL، عند دمجه مع نماذج تعتمد فقط على فك الشيفرات (decoder-only models) والاستدلال الموجه، يحقق نتائج جديدة رائدة في ثلاثة مراجع متعددة اللغات: MedMentions للإنجليزية، QUAERO للفرنسية، وSPACCC للإسبانية. كما تم تقييم كفاءة البيانات، حيث بينت النتائج أن SynCABEL يمكنه الوصول إلى أداء يفوق الإشراف البشري الكامل باستخدام بيانات معنونة أقل بنسبة تصل إلى 60%، مما يقلل بشكل كبير من الاعتماد على التعليق المكلف والعامل-intensive.

وتم الاعتراف بأن التقييم التقليدي القائم على المطابقة الدقيقة غالباً ما يقلل من تقديرات التنبؤات السريرية الصحيحة بسبب تكرار الأنطولوجيا. لذلك، قمنا بتقديم بروتوكول LLM-as-a-judge لتحليل هذه الظاهرة. تحليلنا كشف أن SynCABEL يحسن بشكل ملحوظ معدلات التنبؤات السريرية الصحيحة.

تأتي هذه الأبحاث مرفقة ببيانات اصطناعية، نماذج، وكود متاح لدعم التكرار والبحوث المستقبلية عبر:
- مجموعة Daten على HuggingFace
- مستودع GitHub.