في عصر الذكاء الاصطناعي، تُعتبر نماذج اللغة المرئية (Vision-Language Models - VLMs) واحدة من الإنجازات المبهرة التي سمحت لنا بالقيام بتحليلات متعددة الأنماط بطرق مبتكرة. ومع ذلك، تبقى العديد من التساؤلات حول ما إذا كانت إجابات هذه النماذج مدعومة بأدلة بصرية حقيقية أم تستند فقط إلى المعرفة اللغوية والعالمية المسبقة.

في هذا السياق، قدّم الباحثون إطارًا تشخيصيًا جديدًا يُعرف باسم CounterCount، والذي يهدف إلى تفحص قدرات العد في نماذج VLMs. يعتمد هذا الإطار على وضع صور فعلية وصور مضادة تم تحريرها لتوضيح سمات العد، مما يُمكن من اختبار مدى دقة النماذج عند وجود تعارض بين الأدلة البصرية والمعرفة الكلاسيكية للأشياء.

عند تقييم أداء نماذج VLMs الحديثة باستخدام CounterCount، أظهرت الدراسات نتائج قوية مع الصور الفعلية، لكن لوحظ تدهور مستمر عند تغيير السمات المتعلقة بالصورة المضادة. وهذا يدل على اعتماد هذه النماذج بشكل مفرط على المعرفة المسبقة للأشياء حتى في ظل وجود أدلة بصرية متناقضة.

من خلال استخدام التوضيحات المحلية، أظهر الباحثون أن هذه الإخفاقات لا تعود فقط إلى نقص أو غموض في الأدلة البصرية، بل بسبب تجاهل النماذج للاهتمام بالرموز البصرية المرتبطة بالعد. لتجاوز هذه المشكلة، تم تقديم استراتيجية جديدة تنظم التركيز على الرموز البصرية المختارة، مما أدى إلى تحسين دقة العد المضاد بنسبة تصل إلى 8% عبر نماذج VLMs مختلفة.

بشكل عام، يكشف CounterCount عن إخفاقات العد المستندة إلى المعرفة المسبقة ويقدم رؤى قيمة لتصميم نماذج VLMs المستقبلية.

ما رأيكم في هذا التطور؟ هل تعتقدون أن هذه الابتكارات ستغير من مستقبل الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!