حديثاً، تصاعدت النقاشات حول مدى فعالية معايير رؤية-لغة (Vision-Language Models - VLMs) في قياس الفهم البصري. بفرضية أن دقة هذه المعايير تعكس الفهم البصري grounded، تم إجراء دراسة جديدة تكشف عن تناقضات مدهشة في هذا الافتراض.
التحليل بدأ بملاحظة مثيرة مفادها أنه عند إزالة نسبة كبيرة من وحدات الصورة (image tokens)، فإن أداء النموذج على معيار الهلوسة (hallucination benchmark) لم يتدهور بشكل ملحوظ. هذه الملاحظة دفعت الباحثين لاستكشاف الفجوة في الأداء في مجموعة من نماذج VLMs المتاحة عبر المصادر المفتوحة.
توسعت الدراسة لتشمل عدة مستويات من التحليل، بدءًا من فقدان الرؤية العالمية (global visual degradation) إلى عمليات انسداد موضعية (localized occlusion) وإعادة صياغة الأسئلة (question reformulation)، فضلاً عن تحليل مستويات القرارات (decision-level analyses) الذي يتجاوز الدقة القياسية. ومع كل هذه التجارب، تم اكتشاف أن نماذج VLMs تعتمد على المدخلات البصرية، لكن تنبؤاتها كانت أقل حساسية لفقدان الأدلة البصرية الدقيقة، الذي كان يجب أن تشير إليه الدقة القياسية.
حتى عندما يبقى التنبؤ النهائي دون تغيير، قد تكون دعم النموذج الداخلي للإجابة الصحيحة قد ضعُفت بالفعل. كما أضاف التحليل على مستوى التمثيل (representation-level analysis) أبعادًا جديدة للفهم، حيث لاحظ الباحثون زيادة التشابه بين وحدات الرؤية في الطبقات الأعمق، مما يقدم تفسيرًا ممكنًا للنتائج المحصل عليها.
على العموم، تشير هذه النتائج إلى أن المعايير الحالية غير كافية لتقييم أسس الفهم البصري بدقة في نماذج رؤية-لغة.
رؤية دون نظر: هل تختبر معايير رؤية-لغة فعلاً القدرة البصرية؟
تكشف دراسة جديدة أن دقة المعايير المستخدمة لتقييم نماذج رؤية-لغة قد لا تعكس الفهم البصري الحقيقي كما يُفترض. تتعمق التحليلات في الفجوة بين الأداء المتحقق والاعتماد على الأدلة البصرية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
