لقد أثبتت نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) قدرتها العالية في التنافس على معايير طبية عامة، ولكنها غالبًا ما تفشل في إثبات فعاليتها في الاستخدام السريري. في خطوة جديدة، تم إطلاق CardioLens؛ منصة اختبار مبتكرة تهدف إلى تقييم الأداء السريري لنماذج الذكاء الاصطناعي الخاصة بتصوير القلب عبر مجموعة متعددة من تسلسلات التصوير بالرنين المغناطيسي القلبي (CMR).
تستند منصة CardioLens إلى بيانات ثرية مستخرجة من أرشيفات المستشفيات الخاصة، من خلال عملية دقيقة للتحقق من جودة التقارير. تحتوي على ما يقرب من 474,000 شريحة و13,494 زوجًا موثقًا من أسئلة وأجوبة عبر مجموعة متنوعة من تقنيات التصوير، مثل التصوير الرباعي الأبعاد (4D Cine) والتصوير بالانتشار. يتم تقييم النماذج على ثلاث مراحل رئيسية: فهم الصورة، توليد التقارير، وتشخيص الأمراض.
المفاجئ هو أن CardioLens كشفت عن فجوة ملحوظة بين الأداء الفعلي للنماذج والواقع السريري، حيث أظهرت أن هذه النماذج تعاني من انخفاض في الأداء عند تمحيصها في سياق التدفق الحقيقي لعمل CMR. كما ظهر من خلال تحليل الارتباك أن النماذج غالبًا ما تقع في فخ تصنيفات غير دقيقة، حيث تفضل تصنيفات شائعة لأمراض بدلاً من تمييز النتائج السريرية المختلفة.
عندما تم اختبار التكوينات المختلفة للإدخالات - عشوائية، تحفيزية سريريًا، ومبنية على البيانات - لم يتغير الأداء بشكل كبير. كما فشلت التحفيزات لاستخراج استدلالات واضحة في تحسين الأداء، مما يشير إلى أن النماذج تظل حذرة بدلاً من الاستفادة من الأدلة البصرية المتاحة.
تقدم CardioLens نظرة هامة على واقع أداء النماذج الحالية، مما يعطي دفعة كبيرة لتطوير نماذج لغوية جديدة تتماشى مع متطلبات الاستخدام السريري الواقعي. فهل ستتمكن أدوات مثل CardioLens من سد الفجوة بين الذكاء الاصطناعي والطب؟
كارديو لينز: رصد فجوة الواقع السريري لنماذج اللغة الكبيرة من خلال تقييمات تصوير القلب المتعددة
تقدم CardioLens أداة استثنائية لفحص الفجوات بين أداء نماذج اللغة الكبيرة (MLLMs) وأسلوب الاستخدام السريري. باستخدام بيانات حقيقية من مستشفيات، تكشف الأداة عن مستوى مخيب للآمال في قدرة هذه النماذج على تفسير صور القلب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
