بينما حققت نماذج توليد الصور من النصوص (Text-to-Image) تقدمًا ملحوظًا في إنتاج محتوى بصري وفني عالي الجودة، إلا أن المعايير الحالية لتقييم هذه النماذج تركز بشكل أساسي على واقعية الصورة وتوافقها السطحي مع النصوص، مما يفتقر إلى تقييم شامل لفهم المعاني العميقة ودمج المعرفة العالمية.

في هذا السياق، تم تقديم معيار WISE، وهو أول معيار مصمم خصيصًا لتقييم السمات المعرفية المستندة إلى المعرفة العالمية. WISE يتجاوز عملية الربط البسيطة بين الكلمات والبكسلات، ويتحدى النماذج باستخدام 1000 جملة متميزة تم إعدادها بعناية عبر 25 مجالًا فرعيًا تشمل الثقافة، والتفكير الزمني المكاني، والعلوم الطبيعية.

للتغلب على القيود المفروضة من معيار CLIP التقليدي، تم تقديم مقياس جديد يسمى WiScore، وهو مقياس كمي لتقييم توافق المعرفة مع الصور. من خلال اختبارات شاملة يتم فيها تقييم 20 نموذجًا (10 نماذج متخصصة في T2I و10 نماذج متعددة الوسائط الموحدة) باستخدام 1000 جملة منظمة، كشفت النتائج عن قيود ملحوظة في قدرة هذه النماذج على دمج وتطبيق المعرفة العالمية بشكل فعّال خلال عملية توليد الصور، مما يسلط الضوء على مسارات حاسمة لتحسين دمج واستخدام المعرفة في نماذج T2I القادمة.