تعتبر نماذج الرؤية واللغة الطبية (Medical Vision-Language Models - VLMs) من الأدوات الأساسية في مجال الذكاء الاصطناعي الطبي، حيث يتم تقييمها بواسطة معايير عامة تضمنت صورًا وأزواج سؤال-جواب كانت متاحة للتحميل بشكل مجاني لسنوات. ومع ذلك، يفترض العديدون أن هذه الأمثلة كانت غائبة عن مرحلة التدريب المسبق (Pretraining).
التحقيق الأخير الذي تم إجراؤه على نماذج VLMs العامة مثل SLAKE-En وPathVQA وVQA-RAD، كشف عن نتائج مثيرة. استخدم الباحثون أربعة أنماط من العوامل للكشف عن تداخل البيانات، حيث أظهرت النتائج أن 19.8% من الصور في SLAKE-En قد أُشارت إليها كمتداخلة. هذا يشير إلى وجود تداخل في مصادر البيانات وليس فقط نسخًا مطابقة للصورة.
من جهة أخرى، أثبت نموذج Qwen2.5-VL وجود إشارات قوية على استبدالية النظام العام على SLAKE-En، مما يعني أن النتائج ظلت متسقة رغم الاختبارات المتعددة. في المقابل، نموذج BLIP-2 لم يظهر أي تداخل، مما يثير تساؤلات حول جدوى استخدامه.
في النهاية، تحتاج هذه الاكتشافات إلى إعادة تفكير في موثوقية نماذج VLMs كأدوات مستقلة لتقييم التجاوزات في مجموعة بيانات طبية صغيرة، مما يسلط الضوء على أهمية التدقيق والتقييم الدقيق في هذه النماذج.
تجاوزات التدريب المسبق في نماذج الرؤية الطبية: تدقيق شامل يكشف المستور!
أظهر بحث حديث أن بعض نماذج الرؤية الطبية تُظهر تداخلًا ملحوظًا مع البيانات السابقة، مما يثير تساؤلات حول دقة التقييمات الحالية. هذه النتائج قد تعيد نظر المجتمع الطبي في استخدام هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
