مع تزايد استخدام النماذج الأساسية للرؤية (VFMs) في مجالات متعددة، باتت الحاجة إلى تقييم منهجي لأدائها أمرًا ضرورياً. إحدى الطرق الشائعة تقوم بربط النماذج الأساسية مع نماذج اللغات الكبيرة (LLMs) كأدوات عامة، ثم تُقيم أدائها على مقاييس مثل أسئلة الرؤية البصرية (VQA). لكن هذه الطريقة تعاني من ثغرتين رئيسيتين: الأولى هي أن بيانات التوجيه قد لا تتماشى مع توزيعات اختبار VQA، مما يعني أن الأخطاء قد تنشأ عن هذا التباين بدلاً من عيوب النموذج نفسه؛ والثانية هي أن مقاييس VQA غالباً ما تتطلب مجموعة من القدرات البصرية، مما يجعل من الصعب تحديد ما إذا كانت الأخطاء ناجمة عن نقص في جميع القدرات المطلوبة أو فقط في واحدة محددة.

لذلك، تم تقديم AVA-Bench، والذي يُعتبر المعيار الأول الذي يقوم بفك شفرة 14 قدرة بصرية أساسية (AVAs) - مثل تحديد المواقع، وتقدير العمق، وفهم الفضاء - التي تدعم مهام التفكير البصري المعقدة. من خلال فصل القدرات البصرية المتعددة ومواءمة توزيعات التدريب والاختبار، يتمكن AVA-Bench من تحديد المجالات التي يتفوق فيها النموذج أو يُظهر نقاط الضعف.

طبقاً لذلك، بعدما تم استخدام AVA-Bench على نماذج VFMs الرائدة، اتضح كيف يمكن لنموذج لغة صغير (0.5B LLM) أن يقدم تصنيفات مشابهة لنموذج أكبر (7B LLM) ولكن مع تقليص ساعات معالجة وحدات معالجة الرسومات (GPU) بنسبة 8 مرات، مما يتيح تقييمًا أكثر كفاءة.

من خلال توفير معيار شامل وشفاف، نأمل أن يُسهم AVA-Bench في إنشاء جيل جديد من النماذج الأساسية للرؤية, مما يعزز إمكانيات المستقبل.