في عالم يتقدم فيه الذكاء الاصطناعي بشكل غير مسبوق، تأتي مبادرة DeepTumorVQA لتسلط الضوء على التطورات المثيرة في تقييم نماذج الرؤية واللغة الطبية (Medical Vision-Language Models - VLMs). فبالرغم من التقدم الكبير الذي حققته هذه النماذج في تحليل الصور السريرية، كانت المعايير الحالية تقتصر على قياس الأداء العام فقط، مما يحجب الفهم العميق لأسباب الفشل والنجاح في الأنظمة.

يطرح DeepTumorVQA معيارًا هيراركيًا مبتكرًا يتبع سلسلة الأدلة متعددة المراحل تشخيص الأورام، حيث تقوم بفك شفرة عملية التفكير بخصوص الصور ثلاثية الأبعاد (3D CT) في أربع مراحل: التعرف، القياس، التفكير البصري، والتفكير الطبي. هذه المنهجية تتيح تقييم كل مرحلة بشكل مستقل، بينما ترتبط الأدلة الحقيقية بالعمليات الأولية في المراحل الأدنى.

تتضمن قاعدة بيانات المعيار الجديد ما يقرب من 476,000 سؤالاً، تمتد عبر 42 نوعًا سريريًا مختلفًا، مع استخدام 9,262 صورة ثلاثية الأبعاد. توفر DeepTumorVQA أيضًا بيئات للتفاعل مع الأدوات، مما يمكن الوكلاء الذكيين من استدعاء أدوات خارجية مثل نماذج التقسيم وبرامج القياس قبل إعطاء الإجابة.

أظهرت التجارب التي شملت أكثر من 30 تكوينًا نموذجيًا أن قياسات دقيقة وموثوقة تعتبر العقبة الرئيسية، مما يجعل التفكير المرئي والطبي أكثر تعقيدًا أمام VLMs. وعندما تتاح الأدوات، يصبح استخدام المعرفة الطبية والتفاعل مع الأدوات في تحليل الصور الطبية تحديًا جديدًا. علاوة على ذلك، أظهرت الأبحاث أن تتبع خطوات الاستخدام للأدوات من DeepTumorVQA يمكن أن يساعد الوكلاء في تقليل الأخطاء أثناء الاستخدام والتفكير.

تَشَكِّل هذه السلسلة المترابطة من التعرف إلى القياس ثم التفكير المرئي والطبي خريطة طريق واضحة للبحوث المستقبلية في نماذج الذكاء الاصطناعي الطبية. يمكنك الاطلاع على كافة البيانات والتعليمات البرمجية على [https://github.com/Schuture/DeepTumorVQA].