في ظل التسارع الرهيب الذي تشهده نماذج اللغات متعددة الوسائط (Multimodal Large Language Models) في اجتياز المعايير التقليدية للتفكير البصري، يبرز سؤال محوري: هل تعكس النقاط القوية حقاً فهماً بصرياً موثوقًا؟ هنا نُسلط الضوء على ثغرة شائعة تُعرف باسم "اختصار الكارتيز".
تستند المعايير الحالية للتفكير البصري بشكل كبير إلى أنماط قائمة على الشبكات العمودية (orthogonal grid-based layouts) التي يمكن تقسيمها بسهولة إلى إحداثيات نصية واضحة. تستغل النماذج هذه الخاصية بشكل منهجي، مستخدمة قدرات التفكير الاستنتاجي النصي لدعم حلول المشكلات البصرية.
للتصدي لهذا الاختصار، نقدم معيار Polaris-Bench، الذي يعيد صياغة 53 مهمة تفكير بصري في فضاء الإحداثيات القطبية، مع وجود نظائر من الإحداثيات الكارتيزية كمرجع، مع الحفاظ على القيود المنطقية المتسقة ومعاني المهام. وهذا يكسر بشكل أساسي الأفضلية العمودية التي تستفيد منها النماذج.
أظهرت التقييمات الشاملة عبر 14 من أحدث نماذج اللغات متعددة الوسائط أن النماذج المتقدمة التي تحقق بين 70% و83% على الأنماط الكارتيزية تنهار إلى مستويات تتراوح بين 31% و39% على الأنماط القطبية، مع استمرار هذا الانخفاض حتى في ظل التكافؤ المنطقي الكامل. كما أن المكاسب في التفكير الملاحظ على الأنماط الكارتيزية تقل بشكل كبير عندما يتعلق الأمر بالتطبيقات في الأنماط القطبية.
تظهر هذه النتائج عيباً حرجاً في نماذج اللغات متعددة الوسائط الحالية: نقص في التفكير البصري المستقل عن الط topology. إن هذا الاكتشاف يقودنا للإفصاح عن العلاقة المعقدة بين المنطق والقدرة على الفهم البصري، مما يفتح المجال لمزيد من الأبحاث في هذا السياق.
اختصار الكارتيز: إعادة تقييم التفكير البصري في فضاء الإحداثيات القطبية
تسليط الضوء على نقاط الضعف في نماذج الذكاء الاصطناعي الحالية ومقاومتها للتفكير البصري السليم من خلال إدخال معايير جديدة. يعكس اختبار Polaris-Bench تحديات جديدة لفهم النموذج البصري بشكل دقيق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
