في ظل الزيادة الكبيرة في استخدام نماذج الرؤية اللغوية (Vision-Language Models - VLMs) في مجالات تتطلب حساسية تجاه تشوهات الصور، مثل مراقبة المحتوى واسترجاع الصور، يأتي مؤشر DistortBench ليكون خطوة جديدة ومبتكرة. هذا المؤشر هو معيار تشخيصي مصمم لتقييم تصورات التشوهات بدون مرجع، ويتضمن 13,500 سؤال متعدد الخيارات تغطي 27 نوعًا من التشوهات، بالإضافة إلى ست فئات إدراكية وخمسة مستويات للحدة.
تشير قياسات القدرات إلى أن 25 من هذه التشوهات مستمدة من بيانات KADID-10k، بينما تم تضمين اثنين من تشوهات الدوران باستخدام مستويات قائمة على الزوايا.
تمت دراسة 18 نموذجًا من نماذج الرؤية اللغوية أحدثها يضم 17 نموذجًا مفتوح الوزن من خمس عائلات، بالإضافة إلى نموذج خاص. وعلى الرغم من الأداء القوي في المهام البصرية اللغوية عالية المستوى، فإن أفضل نموذج لم يتجاوز دقة تبلغ 61.9%، وهي نسبة أقل من عتبة تصويت الغالبية البشرية التي تصل إلى 65.7%، مما يدل على أن الفهم البصري الدقيق لا يزال يمثل نقطة ضعف كبيرة في هذه النماذج.
تظهر التحليلات أيضًا عدم وجود علاقة واضحة وصحيحة مع حجم النموذج، وسقوط الأداء في معظم أزواج القاعدة والتفكير، مع أنماط استجابة حدة متميزة عبر عائلات النماذج. نأمل أن يكون مؤشر DistortBench أداة فعالة لقياس وتحسين الإدراك البصري منخفض المستوى في نماذج الرؤية اللغوية.
مؤشر DistortBench: تقدير أداء نماذج الرؤية اللغوية في كشف تشوهات الصور
تم إطلاق مؤشر DistortBench كأداة جديدة لتقييم قدرة نماذج الرؤية اللغوية على التعرف على تشوهات الصور، حيث يكشف عن نقاط ضعف هذه النماذج في الفهم البصري الدقيق. تظهر النتائج أن أفضل هذه النماذج لا تصل حتى إلى معدل دقة البشر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
