في عصر الذكاء الاصطناعي، تُعتبر [نماذج [اللغة](/tag/اللغة) المرئية](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-المرئية) ([Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)) واحدة من [الإنجازات](/tag/الإنجازات) المبهرة التي سمحت لنا بالقيام بتحليلات متعددة الأنماط بطرق مبتكرة. ومع ذلك، تبقى العديد من التساؤلات حول ما إذا كانت إجابات هذه [النماذج](/tag/النماذج) مدعومة بأدلة بصرية حقيقية أم تستند فقط إلى [المعرفة](/tag/المعرفة) اللغوية والعالمية المسبقة.

في هذا السياق، قدّم الباحثون إطارًا تشخيصيًا جديدًا يُعرف باسم CounterCount، والذي يهدف إلى تفحص قدرات العد في [نماذج](/tag/نماذج) [VLMs](/tag/vlms). يعتمد هذا الإطار على وضع [صور](/tag/صور) فعلية وصور مضادة تم تحريرها لتوضيح سمات العد، مما يُمكن من اختبار مدى [دقة النماذج](/tag/[دقة](/tag/دقة)-[النماذج](/tag/النماذج)) عند وجود [تعارض](/tag/تعارض) بين [الأدلة](/tag/الأدلة) البصرية والمعرفة الكلاسيكية للأشياء.

عند [تقييم أداء](/tag/[تقييم](/tag/تقييم)-[أداء](/tag/أداء)) [نماذج](/tag/نماذج) [VLMs](/tag/vlms) الحديثة باستخدام CounterCount، أظهرت الدراسات نتائج قوية مع [الصور](/tag/الصور) الفعلية، لكن لوحظ تدهور مستمر عند تغيير السمات المتعلقة بالصورة المضادة. وهذا يدل على اعتماد هذه [النماذج](/tag/النماذج) بشكل مفرط على [المعرفة](/tag/المعرفة) المسبقة للأشياء حتى في ظل وجود [أدلة بصرية](/tag/أدلة-بصرية) متناقضة.

من خلال استخدام التوضيحات المحلية، أظهر الباحثون أن هذه الإخفاقات لا تعود فقط إلى نقص أو [غموض](/tag/غموض) في [الأدلة](/tag/الأدلة) البصرية، بل بسبب تجاهل [النماذج](/tag/النماذج) للاهتمام بالرموز البصرية المرتبطة بالعد. لتجاوز هذه المشكلة، تم تقديم [استراتيجية جديدة](/tag/[استراتيجية](/tag/استراتيجية)-جديدة) تنظم التركيز على الرموز البصرية المختارة، مما أدى إلى [تحسين](/tag/تحسين) [دقة](/tag/دقة) العد المضاد بنسبة تصل إلى 8% [عبر](/tag/عبر) [نماذج](/tag/نماذج) [VLMs](/tag/vlms) مختلفة.

بشكل عام، يكشف CounterCount عن إخفاقات العد المستندة إلى [المعرفة](/tag/المعرفة) المسبقة ويقدم [رؤى](/tag/رؤى) [قيمة](/tag/قيمة) لتصميم [نماذج](/tag/نماذج) [VLMs](/tag/vlms) المستقبلية.

ما رأيكم في هذا التطور؟ هل تعتقدون أن هذه [الابتكارات](/tag/الابتكارات) ستغير من [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!