في عالم يتطور باستمرار، تلعب تكنولوجيا الذكاء الاصطناعي دورًا حيويًا في تعزيز دقة التشخيص الطبي. حيث يعتمد تشخيص أورام الدماغ بشكل كبير على تقييم صور الرنين المغناطيسي (MRI)، الذي يتطلب من الأطباء المتخصصين تحليل آلاف الصور عبر تسلسلات ثلاثية الأبعاد ودراسات طويلة الأمد. هذه العملية تعزز من حاجة المتخصصين إلى تدريب متقدم في علم الأعصاب الأشعاعي، مما يفرض ضغطًا كبيرًا على قدراتهم الذهنية ويستغرق وقتًا طويلاً.

بالرغم من تزايد الطلب على خدمات الأشعة، فإن هذه الخبرة يصعب تأمينها بشكل كافٍ، مما يشكل تحديًا على الأنظمة الصحية الحالية. وقد فتحت نماذج اللغة المرئية (Vision-Language Models - VLMs) باب الأمل لتخفيف هذا العبء من خلال تقديم تفسير تفاعلي شSemi-automated لصور الدماغ المعقدة.

مع ذلك، لا يتم استخدام هذه النماذج بشكل كافٍ في مجال الأورام العصبية بسبب نقص المعايير المتخصصة لتقييم أدائها. لذا، نقدم لكم مجموعة بيانات جديدة متعلقة بمسألة الإجابة على الأسئلة المرئية (Visual Question Answering - VQA)، وهي مجموعة بيانات UCSF-PDGM-VQA التي تتكون من 2,387 زوجًا من الأسئلة والأجوبة مستمدة من 473 دراسة مرتبطة بالأورام الدبقية من مجموعة البيانات العامة UCSF-PDGM.

علاوة على ذلك، قمنا بتأسيس خط أساس للأداء لستة من أحدث نماذج اللغة المرئية ونموذج لغوي كبير واحد على هذه البيانات. وقد وجدنا أن النماذج الحالية غير قادرة على معالجة المسحات الثلاثية الأبعاد المعقدة بفعالية، مما يؤدي إلى تهميش الميزات المرئية والاعتماد المفرط على الأسبقيات اللغوية، مما يسبب انهيار الأنماط (modality collapse). تكشف هذه النتائج عن عجز حاسم في موثوقية وأمان النماذج الحالية ضمن البيئات السريرية، مما يستدعي تطوير نماذج VLMs موثوقة ومخصصة لهذا المجال.