في عالم الذكاء الاصطناعي المتطور، تمثل نماذج تحويل النص إلى صورة (Text-to-Image Diffusion Models) نظامًا مهمًا يمكنه توليد صور مذهلة بناءً على النصوص المدخلة. ومع ذلك، فإن هذه النماذج لا تعطي دائمًا إشارات موثوقة تشير إلى احتمالية إنتاج صورة غير متوافقة مع النص. هنا يأتي دور الأداة الجديدة EMoE.

تم تطوير أداة EMoE كطريقة خالية من التدريب تهدف إلى تقييم عدم اليقين المعرفي عبر نماذج الخلط من الخبراء (Mixture-of-Experts) المتقدمة. تعتمد فكرة EMoE على فصل مسارات الحساب الخاصة بالخبراء في طبقة مبكرة من نموذج MoE، باستخدام نفس الضوضاء الأولية عبر المسارات، ومن ثم قياس التباين في التمثيلات المستبطنة بعد الخطوة الأولى من إزالة الضوضاء.

تتيح هذه الطريقة الحصول على إشارات موثوقة حول عدم اليقين قبل عملية توليد الصورة كاملة، دون الحاجة إلى استخدام شبكات مساعدة أو تدريب فرق الانحراف. وقد أظهرت النتائج، عند الاختبار على مجموعتي بيانات COCO وCC3M، أن EMoE تصنف المدخلات النصية بناءً على جودة تطابق النص والصورة بشكل أكثر اتساقًا من الطرق التقليدية.

بالإضافة إلى ذلك، تم تطبيق EMoE على المدخلات متعددة اللغات، مما أظهر اختلافات ملحوظة تعتمد على اللغة في كل من حالة عدم اليقين وجودة النتيجة، بما في ذلك تأثيرات المفردات المشتركة. تعتبر هذه النتائج بمثابة خطوة تقدمية في استخدام EMoE كأداة تشخيصية فعلية لتحليل مخاطر المدخلات، تغطية النموذج، ودراسة الانحياز في نماذج تحويل النص إلى صورة القائمة على نماذج الخلط من الخبراء.