في الوقت الراهن، تُستخدم نماذج اللغة والرؤية (Vision-Language Models - VLMs) بشكل متزايد في مهام طبية مختلفة مثل وصف الأمراض، وتوليد التقارير، والإجابة على الأسئلة المرئية. وفي هذا الإطار، يأتي دور تقييم جودة الصور الطبية (Medical Image Quality Assessment - MIQA) كأداة مهمة تدعم دقة التشخيص وسلامة المرضى بتحديد ما إذا كانت الصور تتوافق مع المعايير اللازمة لاتخاذ القرارات السريرية.

تكمن الفائدة من أتمتة MIQA باستخدام VLMs في تقليل العبء العمل، إلا أن سلوك هذه النماذج في الظروف الحقيقية، حيث قد تتعرض الصور للتدهور أو يؤثر السياق النصي على الأحكام، يحتاج إلى مزيد من الاستكشاف قبل تطبيقها.

كشفت الدراسة الجديدة التي شملت تقييم VLMs على جودة الصور الطبية باستخدام مجموعة بيانات MediMeta-C في سبع أنواع من التدهور وخمس مستويات من الشدة، عن حساسيتهم تجاه أنماط التدهور. لذا، تم تقييم تأثير التدهورات على هندسة تمثيل البيانات، وما إذا كانت السمات النصية مثل demographics، والاحترافية، والبنية التحتية، والمؤسسات تغير من الدرجات.

أوضحت النتائج أن التراجع الناتج عن التلاشي كان الأكثر تأثيرًا، حيث انخفضت الدرجات بمعدل 20.58%، ووصلت إلى 34.4% بالنسبة لصور الفحص بالأشعة. كما أظهر نقل التمثيلات تغييرات واضحة في الدرجات. علاوة على ذلك، أثر نص التوصيف المؤسسي إيجابيًا على الدرجات (+17.15%)، في حين خفضت أعمار الأجهزة هذه الدرجات (-14.7%).

وبينما قدمت بعض النماذج تحسنًا يصل إلى 31% للصور المتضررة من الفحص بالأشعة، أظهر نماذج أخرى اختلافات حادة تصل إلى 95.62% (InternVL-8B) أو تراجعت بمعدل 37.7% (MedGemma).

وبهذا، تظهر النماذج الحالية لـ VLMs حدودًا في قدراتها على تقييم جودة الصور الطبية. وإن كان لابد من مراعاة العلاقة بين حماية الخصوصية وموثوقية النتائج، فإن حساسيتها تجاه البيانات السياقية تشير إلى محدودية الموضوعية، مما يجعل البيانات السياقية مصدرًا للخصوصية والتحيز. يتطلب الاستخدام الفعال حماية الخصوصية وتقييم الجودة بطريقة موضوعية.