في دراسة منهجية حديثة، تم تحليل 18 معياراً من معايير الرؤية واللغة لتقييم قدرات نماذج الذكاء الاصطناعي. وقد حدد الباحثون ثلاث مشاكل رئيسية تعيق فعالية هذه المعايير:

1. العديد من العناصر لا تعتمد على الإشارات البصرية، مما يحد من قدرتها على قياس الفهم متعدد الأبعاد.
2. اقتراب الأداء من التشبع في العديد من العناصر، مما يقلل من القوة التمييزية لنماذج الرؤية واللغة الكبيرة (Large Vision-Language Models).
3. تأثير عدد قليل من العناصر الشاذة على موثوقية نتائج التقييم.

للإجابة على هذه التحديات، تم تقديم MMGist، معيار مخصص يغطي سبعة أبعاد قدرات ويحتوي على 7262 عنصراً. تم بناء MMGist من خلال عملية ثلاثية المراحل، تشمل تصفية النص، تصفية التشبع عبر النماذج، وتصفية الكشف عن الشذوذ.

أجريت تجارب موسعة على 27 نموذجاً رائداً في مجال نماذج الرؤية واللغة، وتمت مقارنة MMGist مع مجموعة من 23250 عنصراً. أظهرت النتائج أن MMGist يحافظ على تصنيفات النماذج بدقة عالية، مع معامل سبيرمان (Spearman's rho) بتقييم 0.98، مع تقليص عدد العناصر التي يتم تقييمها بنسبة تصل إلى 69%.

علاوة على ذلك، تشير النتائج إلى أن المنطق البصري يظل ضعفاً منهجياً في النماذج الحالية، بينما تبقى الأبعاد المعرفية المركزة مثل أبعاد المعرفة المتخصصة من العوامل الهامة لتفريق النماذج المغلقة عن النماذج المفتوحة.

مع هذه النتائج، نود التأكيد على أن التقييم عالي الجودة يجب أن يركز على الاعتماد البصري، القوة التمييزية، والموثوقية، بدلاً من مجرد البحث عن نطاق كبير للمعايير.