في ظل التطورات المتسارعة في عالم الذكاء الاصطناعي، ظهرت نماذج الرؤية واللغة الكبرى (Large Vision Language Models - LVLMs) كأداة واعدة في التطبيقات الطبية، خصوصاً في مجالات تشخيص الصور الطبية مثل الأشعة السينية. ومع ذلك، يثير عدم قدرة هذه النماذج على ربط استجابتها بدقة بالأدلة البصرية التي تستند إليها مخاوف جدية بشأن موثوقيتها في السياقات السريرية.
تتضمن أساليب نسبة الإسناد البصرية تقنيات تُستخدم لشرح قرارات نماذج LVLM، لكن السؤال يبقى: إلى أي مدى تعكس هذه الشروحات الأدلة البصرية الفعلية التي تقف خلف قرارات النموذج؟ الإجابة عن هذا السؤال كانت موضع التركيز في دراسة حديثة تناولت تقييم الأسباب في مجال تشخيص الأشعة السينية (CXR).
حيث طوّر الباحثون إطار تقييم سببي يحتفظ فقط بعينات CXR-VQA التي تم التحقق من منطقة التوصيف المرفقة بها من قبل خبراء، وذلك باستخدام تقنيات تعديل مضادة للواقع للتحقق من أنها مسؤولة في الواقع عن تنبؤات النموذج. خلال هذا البحث، تبيّن أن الأساليب الحالية لنسبة الإسناد غالباً ما تفشل في اكتشاف الأدلة التي يستند إليها نموذج LVLM.
لتحسين هذه العملية، قدّم الباحثون طريقة جديدة تُدعى MedFocus، التي تعتمد على مفهوم نسبة الإسناد وتحدد المناطق التشريحية ذات المعنى السريري من خلال النقل الأمثل غير المتوازن، وتقيس تأثيرها السببي على مخرجات النموذج عبر تدخلات مستهدفة. تعدّ MedFocus طفرة في مجال الإسناد، حيث تُنتج تخصيصات على مستوى المواقع والمفاهيم، وتُظهر أداءً أفضل بكثير مقارنةً بالطرق السابقة، مما يُعد خطوة نحو زيادة موثوقية نُظم الذكاء الاصطناعي في القطاع الطبي.
تُظهر هذه الدراسة أن التنافس بين التطورات التكنولوجية والأخلاقيات الطبية يحتاج دائماً إلى تقييم دقيق، وبما أن البيانات والكود المتعلقين بهذا البحث متاحان للجمهور عبر https://github.com/gzxiong/medfocus/، فإن المجتمع العلمي والمدني مدعوّان لتغمروا مزيداً من التفكير في سُبل تحسين الخدمات الصحية من خلال الذكاء الاصطناعي. هل تعتقد أن تقنيات الإسناد ستعزز موثوقية الذكاء الاصطناعي في المجال الطبي؟ شاركونا آرائكم في التعليقات.
إعادة التفكير في نسبة الإسناد البصرية لتشخيص الأشعة السينية: خطوة نحو موثوقية الذكاء الاصطناعي الطبي
تتناول دراسة جديدة عناصر نسبة الإسناد البصرية في نماذج الرؤية واللغة الكبرى، وتقدم طريقة MedFocus لتعزيز موثوقية القرارات الطبية. النتائج تشير إلى أن الأساليب التقليدية قد لا تعكس الأدلة البصرية بدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
