في العصر الحالي، أصبحت نماذج الرؤية واللغة (Vision-Language Models) جزءًا لا يتجزأ من التطبيقات الطبية، ولكن اعتمادها في البيئات السريرية يتطلب سلوكًا قابلاً للتدقيق تحت ظروف الفشل الواقعية. في دراسة حديثة نُشرت على arXiv، تم تحليل خمسة نماذج متطورة من هذه الفئة، مثل Gemini 2.5 Pro، وGPT-5، لتقييم أدائها في أسئلة وتقييمات الرؤية الطبية (Medical VQA).

أوجه القصور في الأداء



تظهر النتائج أن جميع النماذج تعاني من محدودية في قدرتها على تحديد الأهداف التشريحية والمرضية بدقة. على سبيل المثال، أظهرت أفضل النماذج معدل تداخل منخفض (Mean Intersection over Union) بلغ 0.23 فقط، مما يعني أن هناك مساحة شاسعة للتحسين. بالإضافة إلى ذلك، تم الكشف عن تشويش مقلق في تحديد الجوانب الجانبية للأجسام، مما قد يكون له تداعيات خطيرة على القرارات السريرية.

تكامل العمليات



أحد العوامل الرئيسية التي تم التحقيق فيها هو كيفية دمج هذه النماذج في العمليات السريرية. وُجد أنه عندما يتم استخدام نموذج ذاتي الربط الذي يقوم بتحديد الأهداف ثم اتخاذ القرارات، فإن دقة تقييم الأسئلة تتدهور بشكل ملحوظ. في الواقع، لوحظت معدل إفلاس في توافق التنسيق بلغ 70% إلى 99% في العديد من النماذج، مما يوضح أن الجودة في الربط بين الإشارات تشكل نقطة ضعف أساسية.

الحلول الممكنة



لتخفيف هذه المشكلات، تم التجربة بتبديل الصناديق التنبؤية بالتعليقات الحقيقية، مما أدى إلى تحسين دقة الاستجابة. مما يثير تساؤلات حول أصول الفشل وما إذا كان في وحدة الإدراك أو في عملية تشير إلى أسئلة.

خطوات مستقبلية



على الرغم من أن النتائج تشير إلى أن الفجوة في مستوى VQA قد تكون قابلة للتصحيح من خلال التكيف في مجال التخصص، إلا أن الأسئلة حول ما إذا كان هذا سيغلق فجوة الثقة في الإدراك تظل مفتوحة للبحث في المستقبل. في النهاية، تبرز هذه الدراسة الحاجة الملحة لتحسين الجودة والموثوقية في نماذج التعليم الآلي المستخدمة في التطبيقات الطبية.