في عصر الذكاء الاصطناعي، تُعتبر [نماذج [اللغة](/tag/اللغة) المرئية](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)-المرئية) ([Vision-Language Models](/tag/vision-language-models) - [VLMs](/tag/vlms)) واحدة من [الإنجازات](/tag/الإنجازات) المبهرة التي سمحت لنا بالقيام بتحليلات متعددة الأنماط بطرق مبتكرة. ومع ذلك، تبقى العديد من التساؤلات حول ما إذا كانت إجابات هذه [النماذج](/tag/النماذج) مدعومة بأدلة بصرية حقيقية أم تستند فقط إلى [المعرفة](/tag/المعرفة) اللغوية والعالمية المسبقة.
في هذا السياق، قدّم الباحثون إطارًا تشخيصيًا جديدًا يُعرف باسم CounterCount، والذي يهدف إلى تفحص قدرات العد في [نماذج](/tag/نماذج) [VLMs](/tag/vlms). يعتمد هذا الإطار على وضع [صور](/tag/صور) فعلية وصور مضادة تم تحريرها لتوضيح سمات العد، مما يُمكن من اختبار مدى [دقة النماذج](/tag/[دقة](/tag/دقة)-[النماذج](/tag/النماذج)) عند وجود [تعارض](/tag/تعارض) بين [الأدلة](/tag/الأدلة) البصرية والمعرفة الكلاسيكية للأشياء.
عند [تقييم أداء](/tag/[تقييم](/tag/تقييم)-[أداء](/tag/أداء)) [نماذج](/tag/نماذج) [VLMs](/tag/vlms) الحديثة باستخدام CounterCount، أظهرت الدراسات نتائج قوية مع [الصور](/tag/الصور) الفعلية، لكن لوحظ تدهور مستمر عند تغيير السمات المتعلقة بالصورة المضادة. وهذا يدل على اعتماد هذه [النماذج](/tag/النماذج) بشكل مفرط على [المعرفة](/tag/المعرفة) المسبقة للأشياء حتى في ظل وجود [أدلة بصرية](/tag/أدلة-بصرية) متناقضة.
من خلال استخدام التوضيحات المحلية، أظهر الباحثون أن هذه الإخفاقات لا تعود فقط إلى نقص أو [غموض](/tag/غموض) في [الأدلة](/tag/الأدلة) البصرية، بل بسبب تجاهل [النماذج](/tag/النماذج) للاهتمام بالرموز البصرية المرتبطة بالعد. لتجاوز هذه المشكلة، تم تقديم [استراتيجية جديدة](/tag/[استراتيجية](/tag/استراتيجية)-جديدة) تنظم التركيز على الرموز البصرية المختارة، مما أدى إلى [تحسين](/tag/تحسين) [دقة](/tag/دقة) العد المضاد بنسبة تصل إلى 8% [عبر](/tag/عبر) [نماذج](/tag/نماذج) [VLMs](/tag/vlms) مختلفة.
بشكل عام، يكشف CounterCount عن إخفاقات العد المستندة إلى [المعرفة](/tag/المعرفة) المسبقة ويقدم [رؤى](/tag/رؤى) [قيمة](/tag/قيمة) لتصميم [نماذج](/tag/نماذج) [VLMs](/tag/vlms) المستقبلية.
ما رأيكم في هذا التطور؟ هل تعتقدون أن هذه [الابتكارات](/tag/الابتكارات) ستغير من [مستقبل الذكاء الاصطناعي](/tag/[مستقبل](/tag/مستقبل)-الذكاء-الاصطناعي)؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
CounterCount: الإطار الثوري لاكتشاف تحيز العد في نماذج اللغة المرئية
تستكشف الدراسة الجديدة بعنوان CounterCount الفجوة بين استنتاجات نماذج اللغة المرئية (VLMs) والواقع المرئي من خلال توفير إطار تشخيصي ثوري. تكشف النتائج عن الاعتماد المفرط على المعرفة المسبقة، مما يدعو لإعادة التفكير في تصميم هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
