في عالم تكنولوجيا المعلومات الصحية، تزداد أهمية نماذج اللغات الكبيرة (Large Language Models) في مساعدة المرضى على التعامل مع استفساراتهم الطبية. ومع ذلك، تواجه هذه النماذج تحديات كبيرة في تقييم أدائها، حيث يتم التركيز عادةً على مدى تطابق إجاباتها بشكل دلالي، ولكن هذا لا يعكس الحقيقة الطبية بدقة، ولا المخاطر المتعلقة بالعدالة الصحية.
للخروج من هذه المشكلات، تم تقديم إطار التقييم الجديد المعروف باسم VB-Score (Verification-Based Score)، الذي يتيح تقييمًا منفصلًا لأربعة مكونات رئيسية: التعرف على الكيانات، الدلالية، التناسق الواقعي، واكتمال المعلومات المهيكلة.
أجرى الباحثون مراجعات دقيقة لأداء ثلاثة من نماذج اللغات الكبيرة الشهيرة على 48 موضوعًا صحيًا مستندًا إلى معلومات موثوقة وعالية الجودة. وبينت النتائج وجود فجوة كبيرة بين الدقة الدلالية ودقة الكيانات، حيث أظهرت التقييمات التي أُجريت أن جميع النماذج تعرضت تقريبًا لفشل شديد في الأداء عند قياسها وفقًا لمعايير VB-Score.
الأكثر استفزازًا هو اكتشاف أن نماذج الذكاء الاصطناعي تعرضت لتباينات مثيرة للقلق في الأداء عبر مواضيع الصحة العامة المختلفة، إذ أظهرت انخفاضًا قدره 13.8% في الأداء في المواضيع المرتبطة بالحالات المزمنة التي تصيب كبار السن والأقليات، مما يسلط الضوء على ما يعرف بالتمييز الخوارزمي القائم على الحالة.
تظهر النتائج أيضًا أن تحسين التعليمات المهمة (prompt engineering) وحده لا يكفي لتعويض القيود الهيكلية الأساسية التي تؤثر على كيفية أداء هذه النماذج في استخراج الكيانات الطبية، مما يطرح تساؤلات حول ما إذا كانت التقييمات الدلالية فقط كافية لضمان سلامة الذكاء الاصطناعي في المجال الطبي.
تحليل متعمق: تقييم شديد الدقة لأنظمة الإجابة على الأسئلة الطبية وتأثيراتها على العدالة الصحية
يطرح إطار تقييم جديد يُعرف بـ VB-Score لمواجهة التحديات الحالية في تقييم دقة نماذج الذكاء الاصطناعي في المجال الطبي. تشير النتائج إلى وجود تباينات خطيرة في الأداء تؤثر على الفئات السكانية الأكثر ضعفًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
