في تطور مثير في عالم الذكاء الاصطناعي، أظهر باحثون من خلال دراسة جديدة حجم التحديات التي تواجه نماذج اللغة المرئية (VLMs) عند محاولة فهم الصور المعقدة. لقد تم تقديم اختبار جديد يسمى VisualOverload، والذي يتضمن 2720 زوجًا من الأسئلة والإجابات التي تم تصميمها لاختبار قدرة هذه النماذج على التعامل مع مشاهد ذات كثافة عالية.

على عكس مجموعات البيانات التقليدية، التي تركز على الفهم العام للصور، يوفر VisualOverload مشاهد مليئة بالشخصيات، والأحداث، والتفاصيل المعقدة. هذه المشاهد تم التقاطها بدقة عالية من لوحات فنية مشهورة وتعكس تحديات حقيقية لنماذج الذكاء الاصطناعي. يطرح الاختبار أسئلة متعلقة بفهم السياقات المتعددة والمعلومات المخفية في المشهد.

تشير النتائج إلى أن أداء أفضل نموذج من بين 37 نموذج مُختبر حقق فقط دقة تبلغ 19.6% في أصعب أسئلة الاختبار، بينما كانت الدقة العامة 69.5% فقط على جميع الأسئلة. تسلط هذه النتائج الضوء على الفجوات الحرجة في أداء نماذج الذكاء الاصطناعي الحالية، حيث تكافح للحصول على فهم دقيق للمشاهد المزدحمة ومهام العد، بالإضافة إلى مشكلات في التعرف الضوئي على الحروف (OCR) والتناقضات المنطقية في المهام المعقدة.

يساهم VisualOverload بشكل كبير في أبحاث الذكاء الاصطناعي من خلال الرسم بشكل واضح التحديات أمام نماذج VLMs، ويتيح للباحثين فرصة تطوير نماذج أفضل في المستقبل.

هل تعتقد أن هذه الاختبارات ستساعد في تحسين فهم الذكاء الاصطناعي للصور؟ شاركونا آرائكم في التعليقات!