في عالم الذكاء الاصطناعي، تتطور نماذج اللغات الكبيرة متعددة الوسائط (MLLMs) بشكل متسارع. لكن الدراسة الحديثة التي تحمل عنوان StemBind تسلط الضوء على تحدٍ جديد: كيف تعرف هذه النماذج القواعد لكن قد تختار الإجابة غير الصحيحة في مهام التفكير البصري المجرد (Abstract Visual Reasoning - AVR). في العادة، تعجز المعايير الحالية عن اكتشاف هذه المشكلة، حيث تدمج بين مفاهيم الإدراك واستنتاج القواعد واختيار الإجابة ضمن إشارة واحدة صحيحة أو خاطئة.

تقدم StemBind معيارًا جديدًا لتشخيص هذه الظاهرة، حيث يتضمن مجموعة من الأسئلة المترابطة التي تستهدف نفس السمة البصرية ولكن من زوايا مختلفة: الإدراك (ما الموجود في الصورة)، القاعدة (ما النمط الحاكم)، والإجابة الكاملة (أي خيار يكمل الفقرة). بذلك، يمكن تحديد خطأ النهاية الناتج عن فشل في خطوة محددة من الأدلة.

تحتوي StemBind على 2298 سمة بصرية مخططة بعناية تغطي تسعة عمليات بصرية قابلة للتدقيق، بمجموع 19533 مهمة. تم تقييم 24 من نماذج MLLM الرائدة، وأظهر التحليل أربعة اكتشافات رئيسية:
1. فجوة القاعدة والإجابة: دقة القاعدة تفوق دقة إجابة العناصر الكاملة في 22 من 24 نموذجًا، مما يعني أن الفشل يحدث غالبًا بعد التعرف على القاعدة.
2. فجوة دائمة في الربط: حتى عندما تكون إدراك القاعدة صحيحة، تظل النماذج تجيب بشكل خاطئ 51.2% من الوقت.
3. نقطة الاختناق موجودة في المرحلة الثالثة (S3): الاتجاهات التشخيصية تركز الفشل الرئيسي على الربط بين القاعدة والحالة.
4. توسيع النماذج والتفكير لا يجدي: فالنماذج الأكبر أو أنماط التفكير الواضحة لا تعوض عن الفجوات، بل في بعض الحالات تقلل الدقة.

من خلال إعادة تأطير تقييم الـ AVR من ترتيب الإجابات النهائية إلى تحديد أماكن الفشل في التفكير البصري المجرد، تحدد StemBind الربط بين القاعدة والمثال كهدف ملموس للتحسين في فهم الآلات للرؤية.