في عالم الذكاء الاصطناعي الحديث، تبرز نماذج اللغات العملاقة متعددة الأنماط (MLLMs) كأدوات مبتكرة تسعى لدمج الرؤية واللغة ضمن فضاء تمثيلي موحد. ومع ذلك، تكشف الأبحاث الأخيرة عن وجود تناقض ملحوظ في أداء هذه النماذج عند المعالجة عبر أنماط مختلفة.

قُدمت معايير جديدة تُسمى REST وREST+ (اختبارات ضغط تساوي العرض) لدعم التقييم المنظم لهذا التناقض. تشمل هذه المعايير عينات تحتوي على نفس المعلومات الدلالية ولكن يتم تقديمها في ثلاثة أنماط: الصورة والنص والمختلط. والنتيجة المدهشة هي أن النماذج الحديثة ذات الأداء العالي لا تستطيع الحفاظ على اتساق التفكير عبر هذه الأنماط المتعددة.

قمنا بتقييم 15 من هذه النماذج، ووجدنا أن درجة عدم التناسق تختلف بشكل كبير، حتى عند الأخذ بعين الاعتبار مشاكل التعرف على النصوص (OCR). لم تنجح محاولات عرض النص كصورة أو العكس في حل المشكلة. حتى مع دقة التعرف على النصوص، كشفت الدراسة عن تأثير الخصائص البصرية مثل لون النص والدقة، بينما لم يكن لنمط الخط تأثير ملحوظ على الأداء.

تشير نتائجنا إلى أن درجة التناسق ترتبط بشكل وثيق بالفجوة بين الأنماط النصية والمرئية، مما يمنح تفسيرًا منهجيًا لمشكلة عدم التناسق بين أنماط MLLMs. هل أنت مستعد لاستكشاف هذه الظاهرة المثيرة؟ تابعونا لمعرفة المزيد حول هذا المجال المتطور.