تشير الأبحاث الحديثة إلى أن النماذج القادرة على تجسيد الجمل (Sentence-embedding models) تم تطويرها وسُجلت نتائجها بشكل كبير على البيانات الإنجليزية، مما قد يُخفى التحديات التي تواجه استرجاع المعلومات السريرية في لغات أخرى، خاصة فيما يتعلق بالرموز الطبية مثل ICD-10-CM. في هذا الإطار، اجتازت دراسة جديدة حواجز اللغة لتفتتح آفاقاً جديدة في البحث السريري.

تتعمق الدراسة في استخدام نماذج اللغات الكبيرة (Large Generative Language Models) كوسيلة لإنتاج بيانات اصطناعية، حيث تم بناء نظام استرداد ذو مرحلتين: الأول ينطوي على نموذج ثنائي التشفير (bi-encoder) يليه إعادة ترتيب بواسطة نموذج تشفير متقاطع (cross-encoder reranker). تم تحسين هذا النموذج من نموذج حيوي إسباني (PlanTL-GOB-ES/bsc-bio-ehr-es) باستخدام بيانات اصطناعية تم إنشاؤها بواسطة نموذج Gemini، والتي تشمل لغات متعددة مثل الإنجليزية، الإسبانية، الكتالونية، الإيطالية، البرتغالية، والفرنسية.

وفي تقييمها، أظهرت النتائج أن النماذج الجديدة كانت تنافسية بصورة كبيرة حيث بلغ معدل الاسترجاع (Mean Reciprocal Rank) 0.876 مقارنةً بـ0.866 لنموذج BioBERT-ST، بينما تفوق على الأخير في مؤشرات أخرى (R@3 وR@5). على الرغم من وجود تراجع طفيف في الأداء بالنسبة للغة الإنجليزية، إلا أن النتائج الجديدة كانت مقبولة سريرياً، حيث حقق الأداء في اللغة البرتغالية R@5 = 0.829 مقارنة بـ0.714 لـBioBERT-ST.

تسعى هذه الدراسة لتقديم وصفة واضحة لبناء أنظمة استرداد طبية متخصصة من بيانات توليد LLM، مع قياس الزيادة في التعلم (+15.9%) وتحديد أماكن التركيز حيث تتوزع المكاسب بحسب اللغة والترتيب. مع هذه الابتكارات، سيكون مستقبل الأساليب السريرية أكثر إشراقًا، مما يوفر للمتخصصين في الرعاية الصحية أدوات أفضل للدعم.