في عالم الذكاء الاصطناعي، تستخدم المقاييس الآلية بشكل واسع لتقييم نماذج تحويل النص إلى صورة (text-to-image models)، وغالباً ما تحل هذه المقاييس محل الحكم البشري في المراجعة والاختيار والنشر على نطاق واسع. لكن، هل تعتقد أن هذه المقاييس تكافئ الصور التي تبدو معقولة أو نموذجية بدلاً من تلك التي تلبي طلبات المستخدم بشكل دقيق؟

لقد اكتشف الباحثون ظاهرة تُعرف باسم "تحيز النماذج النموذجية" (Prototypicality Bias) والتي تُعد ثغرة منهجية في التقييمات متعددة الوسائط (multimodal evaluations). تكشف الدراسة أن المقاييس يمكن أن تفضل صورة غير صحيحة من الناحية الدلالية لكنها نموذجية بصرياً أو اجتماعياً، على صورة صحيحة ولكن أقل نموذجية.

لتسليط الضوء على هذه القضية، تم تقديم مقياس جديد يُسمى PROTOBIAS، والذي يعكس تقييمات منضبطة عبر مجموعة من الفئات مثل الحيوانات والأشياء والديموغرافيا. يتضمن هذا المقياس مقارنة الصور الصحيحة دلالياً مع أعداء نموذجية تحتوي على انتهاك دلالي واحد تحت السيطرة.

تم بناء PROTOBIAS باستخدام نظرية النموذج (prototype theory) وفئات النمذجة الاجتماعية، كما تم تطويره باستخدام مولدات متعددة للنصوص والصور وأدوات فلترة مستقلة، وتمت مراجعته بعناية من خلال تقييم جودة الطلبات والجودة البشرية والصورة.

تكشف النتائج أن العديد من المقاييس المستخدمة بشكل شائع، مثل مقاييس التضمين والمكافأة والمقاييس التي تعتمد على الأسئلة والأجوبة، غالباً ما تفشل في تمييز الفروق الدقيقة، بينما تظل الأحكام البشرية أكثر دقة في تقييم الصحة الدلالية.

بالإضافة إلى ذلك، قدم الباحثون مقياس PROTOSCORE، وهو أداة خفيفة الوزن تم تدريبها بأسلوب مغاير، كخط أساس أولي للتخفيف من هذا التحيز. يعد PROTOBIAS مقياساً مركزياً لقياس إخفاقات المقاييس المدفوعة بالنموذج ولتطوير مقيمين أكثر دقة في تحقيق دلالات تحويل النص إلى صور.