مؤشر DistortBench: تقدير أداء نماذج الرؤية اللغوية في كشف تشوهات الصور

Q: ما هو موضوع مقال "مؤشر DistortBench: تقدير أداء نماذج الرؤية اللغوية في كشف تشوهات الصور"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "مؤشر DistortBench: تقدير أداء نماذج الرؤية اللغوية في كشف تشوهات الصور" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في ظل الزيادة الكبيرة في استخدام نماذج الرؤية اللغوية (Vision-Language Models - VLMs) في مجالات تتطلب حساسية تجاه تشوهات الصور، مثل مراقبة المحتوى واسترجاع الصور، يأتي مؤشر DistortBench ليكون خطوة جديدة ومبتكرة. هذا المؤشر هو معيار تشخيصي مصمم لتقييم تصورات التشوهات بدون مرجع، ويتضمن 13,500 سؤال متعدد الخيارات تغطي 27 نوعًا من التشوهات، بالإضافة إلى ست فئات إدراكية وخمسة مستويات للحدة.

تشير قياسات القدرات إلى أن 25 من هذه التشوهات مستمدة من بيانات KADID-10k، بينما تم تضمين اثنين من تشوهات الدوران باستخدام مستويات قائمة على الزوايا.

تمت دراسة 18 نموذجًا من نماذج الرؤية اللغوية أحدثها يضم 17 نموذجًا مفتوح الوزن من خمس عائلات، بالإضافة إلى نموذج خاص. وعلى الرغم من الأداء القوي في المهام البصرية اللغوية عالية المستوى، فإن أفضل نموذج لم يتجاوز دقة تبلغ 61.9%، وهي نسبة أقل من عتبة تصويت الغالبية البشرية التي تصل إلى 65.7%، مما يدل على أن الفهم البصري الدقيق لا يزال يمثل نقطة ضعف كبيرة في هذه النماذج.

تظهر التحليلات أيضًا عدم وجود علاقة واضحة وصحيحة مع حجم النموذج، وسقوط الأداء في معظم أزواج القاعدة والتفكير، مع أنماط استجابة حدة متميزة عبر عائلات النماذج. نأمل أن يكون مؤشر DistortBench أداة فعالة لقياس وتحسين الإدراك البصري منخفض المستوى في نماذج الرؤية اللغوية.

مؤشر DistortBench: تقدير أداء نماذج الرؤية اللغوية في كشف تشوهات الصور

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

جوجل تضيف مهارات الذكاء الاصطناعي إلى كروم: احتفظ بتجاربك المفضلة بذكاء!

قفزة مذهلة: شركة Allbirds تتحول نحو الذكاء الاصطناعي بعد بيع أعمالها في صناعة الأحذية!

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!