تشهد نماذج اللغات الضخمة (Large Language Models) تحولًا جذريًا في طريقة دعم القرارات الطبية، ولكن معظم المعايير حتى الآن تركز على اللغة الإنجليزية، مما يترك فجوات كبيرة في الوصول العالمي. للتغلب على هذه الفجوات، تم تقديم معيار ClinicalBr، الذي يُعتبر الأول من نوعه لتقييم القرارات الطبية باللغتين البرتغالية والبرازيلية، مستندًا إلى تقارير حالات حقيقية من البرازيل.

يضم هذا المعيار مجموعة بيانات تحتوي على 2,892 حالة تم تجميعها من 28 مجلة طبية ضمن منصة SciELO، تغطي 18 تخصصًا طبيًا مختلفًا، وهي مصممة كأزواج متوازية بين البرتغالية والإنجليزية. يدعم كل تقرير حالة أربعة مهام تقييمية: استرجاع التشخيص، التشخيص التفريقي، توصية الفحوصات، وتخطيط العلاج.

تم تقييم أربعة نماذج لغوية هي: MedGemma-27B، Sabi'a-4، DeepSeek-R1، وo3-mini، عبر كلتا اللغتين. وجدت النتائج أن الفجوة في الأداء بين اللغتين تتوقف على طبيعة المهمة، إذ يظهر تفوق واضح للغة الإنجليزية في استرجاع التشخيص، حيث زادت النقاط بدقة تصل إلى 12.1 مقارنة بالنماذج الأخرى. ومع ذلك، اختفى هذا التفوق في المهام الأخرى مثل التشخيص التفريقي وتوصية الفحوصات، حيث أظهرت الدرجات المكتملة باللغة البرتغالية تفوقًا طفيفًا.

تُظهر دراسة الحالات المخصصة للحالات الصحية المتوطنة في البرازيل أنها أسهل في التعامل من كامل مجموعة البيانات، مما يشير إلى تمثيل ملائم للظروف الاستوائية في التدريب السابق. كانت توصية الفحوصات هي المهمة الأكثر تحديًا عبر جميع النماذج، حيث جاءت درجات F1 أدنى من 0.10، وهو ما يمثل مستوى أقل بكثير من السقف الممكن في التشخيص التفريقي الذي يتراوح بين 0.20 و0.27.

تمثل هذه الدراسات فرصة لتوسيع نطاق تطبيقات الذكاء الاصطناعي في مجالات صحية متعددة، وتفتح الطريق لمزيد من الأبحاث حول استخدام نماذج اللغة في الرعاية الطبية.

ما رأيكم في هذه التطورات المثيرة في مجال الذكاء الاصطناعي بالقطاع الصحي؟ شاركونا في التعليقات!