في عالم الذكاء الاصطناعي، تظل قدرة النماذج على التعامل مع المهام المعقدة تمثل تحديًا مستمرًا، خاصةً عندما يتعلق الأمر بالتفكير البصري المجرد. في دراسة حديثة نُشرت على منصة arXiv، يُسلط الضوء على قضية محورية تتعلق بنماذج الرؤية-اللغة (Vision-Language Models) التي تعاني من قصور في أدائها على مؤشرات التفكير البصري المجرد، مثل مشاكل بونغارد.

للإجابة على هذا التساؤل، تم إجراء دراسة على معيار بونغارد-لوجو (Bongard-LOGO)، والذي يعتبر أداة اصطناعية لتعلم المفاهيم المجردة. تمت المقارنة بين النماذج التي تعتمد على الصورة مباشرة مع نماذج اللغة الكبيرة (Large Language Models) التي تستخدم مدخلات رمزية مشتقة من تلك الصور. من خلال تحويل مشكلة بونغارد-لوجو إلى مهمة تفكير رمزي، تمكن فريق البحث من إعادة صياغة التحدي باستخدام نموذج جديد يعرف باسم نموذج التركيب النحوي (Componential-Grammatical Paradigm).

لقد أسفرت النتائج عن تحقيق نماذج اللغة الكبيرة لتحسينات كبيرة وقابلة للقياس، حيث بلغت دقتها حوالي 90% في حل مشاكل تعبيرية، في حين بقي أداء النماذج البصرية التقليدية قريبًا من الحظ. كما أظهرت التحليلات الإضافية أن التحول من البكسلات إلى الهيكل الرمزي كان العامل الأهم بدلاً من تنسيق المدخلات أو مفاهيم المفاتيح الواضحة.

تسلط هذه النتائج الضوء على أن التمثيل يُعد عقبة رئيسية في التفكير البصري المجرد، وتبين كيف يمكن أن تخدم المدخلات الرمزية كحد أقصى للتشخيص المسيطر.