في عالم الذكاء الاصطناعي، تأتي أهمية المعايير والمقاييس في ضمان تحقيق نتائج موثوقة ودقيقة. وهذه المرة، نلقي الضوء على معيار JMed48k، الذي يُعتبر ثورة في تقييم نماذج الرؤية واللغة (Vision-Language Models) في مجال الترخيص الطبي في اليابان.

تأسس معيار JMed48k استناداً إلى مواد رسمية تم إصدارها بواسطة وزارة الصحة والعمل والرفاهية اليابانية، ويحتوي على مجموعة مذهلة من 48,862 سؤالاً و20,142 صورة. تتوزع هذه الأسئلة عبر 11 امتحان ترخيص وطني من 2005 حتى 2025، مع تصنيف بصري تم وضعه تحت ثمانية أنواع مختلفة.

إن واحدة من النقاط البارزة في هذا المعيار هي JMed48k-Eval، وهي مجموعة تقييم حديثة تضم 12,484 سؤالاً مصنّفاً، بما في ذلك 9,905 أسئلة نصية و2,579 سؤالاً يتضمن صوراً. يتم تقييم أداء 21 نموذجاً، بما في ذلك النماذج الخاصة والمفتوحة المصدر، مع تقديم تقرير مفصل عن الأداء مع النصوص فقط ومع الصور.

ومن المثير للاهتمام أن نتائج التقييم بين هذه النماذج تختلف بشكل واضح؛ حيث أظهرت النماذج التجارية والمفتوحة المصدر استفادة كبيرة من وجود الصور، بينما كانت الأنظمة الطبية الخاصة محدودة في استخدام المحتوى البصري، حيث أنه ربما العديد من الإجابات الصحيحة تستمر حتى بعد إزالة الصور.

تمت الإشارة إلى أن الفروق في تأثير إزالة الصور تختلف بشكل كبير عبر التخصصات، حيث كانت الطفرة في درجة الأسئلة الخاصة بالصيادلة +5.7 نقطة بينما كان التأثير على الأسئلة الخاصة بالممرضين في الصحة العامة +39.8 نقطة.

يأتي إطلاق معيار JMed48k ليكون دعماً قوياً لتقييم نماذج الرؤية واللغة في سياقات ترخيص المهن الطبية بأسلوب موثوق وقابل للاستنساخ. ما رأيكم في هذا التطور المثير؟ شاركونا في التعليقات.