في دراسة حديثة، أثبتت نماذج الرؤية اللغوية (Vision-Language Models) قدرتها على تحقيق دقة عالية في تشخيص صور الأشعة السينية (Chest Radiographs) حتى دون الحاجة إلى الصورة في بعض الأحيان. لكن هل فعلاً نحتاج إلى الصور لتحقيق هذه الدقة؟

الكثيرون افترضوا أن النماذج الطبية تعتمد بشكل كامل على الصور، لكن هذه الدراسة قدمت طريقة جديدة لفهم العلاقة بين الصورة والتشخيص، حيث تم استخدام تدقيق سببي (Causal Audit) يتضمن حجب مناطق معينة من الصورة واستبدالها بأشعة لمرضى آخرين بنفس التسمية.

بينما أظهرت النتائج أن نموذج النص فقط (Text-Only Model) وقع في نطاق 5.7 نقاط من أفضل نموذج متعدد الوسائط (Multimodal Model) بدون الحاجة للصورة، إلا أن نموذج الـ 119 مليار معلمة كان لا يمكن تمييزه إحصائياً عن نموذج نصي تقتصر معلماته على 7 مليارات.

ما يدعو للدهشة هو أن أحد النماذج النصية لم يكن يعتمد على الصور ومع ذلك حقق دقة مماثلة لتلك التي حققها الأطباء المعتمدون. بالإضافة إلى ذلك، فإن النماذج التي تستخدم الصور كانت بحاجة دائماً إلى توجيه أكثر دقة لتحقيق نفس دقة الأطباء. وهذا يشير إلى أن الاعتماد على الصور ليس دائماً ضرورياً لهذه النماذج.

الجوانب المثيرة للاهتمام تتعلق بكيفية توجيه القرارات السريرية، حيث يجب أن تكون تدقيقات الربط (Grounding Audits) هي معيار الانتقال إلى استخدام النماذج في البيئات السريرية بدلاً من الاعتماد الاعمى على الدقة وحدها.

مع هذه الاكتشافات الجديدة، يبقى السؤال: هل يمكن الاعتماد على الذكاء الاصطناعي في تشخيصات طبية دقيقة دون الاستعانة بالصور؟ شاركونا آرائكم في التعليقات!