تُعد نماذج اللغات الضخمة متعددة الوسائط (Multimodal Large Language Models - MLLMs) من أبرز الابتكارات في مجال الذكاء الاصطناعي، حيث أثبتت قدرتها على التفوق في مهام الفهم البصري. لكن ماذا يحدث عندما تُعرض على مشاهد تتناقض مع ما يعرفونه عن العالم؟ لتسليط الضوء على هذه القضية، تم تقديم CAIT، وهو معيار يتضمن 400 مشهدٍ صناعي عالي الدقة يتناول تصرفات بصرية غير بديهية، مثل "الأرنب يطارِد نمرًا"، حيث تتعارض الدلائل المرئية بشكل واضح مع التوقعات الشائعة.

في دراسة شاملة، تم تقييم أداء البشر والنماذج الرائدة والمملوكة (كـ Claude و Gemini) بالإضافة إلى 14 نموذجًا تمثيليًا مفتوح المصدر. بينما بلغت دقة أداء البشر حوالي 0.95، حققت النماذج المملوكة أداءً قويًا بلغ 0.88، إلا أن النماذج المفتوحة المصدر بشكل عام أدت إلى نتائج عشوائية. تكشف التحليلات أن هذا الإخفاق ناتج عن انحياز لغوي قوي؛ بدلًا من الاعتماد على المدخلات البصرية، كانت هذه النماذج تميل إلى استبدال الإشارات المرئية الشاذة بوصف نصي شائع.

على الرغم من أن تضمين آلية Chain-of-Thought يمكن أن يحسن من الدقة، إلا أنه يؤدي أيضًا إلى إبطاء الاستجابة ويؤدي إلى نمط فشل جديد، حيث تتردد النماذج في قبول المحتوى البصري الفعلي لأنها تعتبره مخالفًا لقوانين الفيزياء الواقعية. ومع ذلك، يُظهر البحث أن التعديل المستهدف والتحفيز الهيكلي يمكن أن يقلل بشكل فعال من الاعتماد على انحيازات اللغة، مما يمكّن النماذج المفتوحة من توصيل تفكيرها بالدليل المرئي الفعلي.

ما رأيكم في تحديات نماذج الذكاء الاصطناعي عندما تواجه معلومات تتعارض مع البديهيات؟ شاركونا آراءكم!