في عالم الذكاء الاصطناعي، تعتمد العديد من نماذج اللغة البصرية (Visual-Language Models) على أساليب التحقق الذاتي (self-verification) للوصول إلى أداء مثالي. يعتبر استخدام المحققين (verifiers) القويين من الطرق الشائعة لتحسين جودة المحتوى المنتج. يتلقى النموذج التعليمي تحديثات بناءً على تقييم المحققين للمرشحين، مما يفترض أن المحقق الأقوى سيولّد نتائج أفضل.
ومع ذلك، توصلت دراسات جديدة إلى أن هذا الافتراض قد يكون مضللاً. حيث أظهرت الأبحاث أن جودة المحققين تكون عالية التخصص وتعتمد على المهمة المحددة. فعلى سبيل المثال، استخدمت تجربة متعددة المهام نماذج تحقق مفتوحة المصدر، ووجدت أن نفس المحققين الذين أظهروا أداءً جيدًا على مهمة معينة، قد يتراجع أداؤهم على مهام أخرى مثل MathVista مقارنةً مع MMMU.
تكشف الأرقام المثيرة للدهشة أن دقة هذه المحققين تنخفض إلى مستويات بين 8% و23%، مما يؤثر سلبًا على الأداء العام للنموذج، حتى في الوقت الذي يستمر فيه تقليل خسارة التدريب. ومن المثير للقلق أن كل محقق تم اختباره كان له تأثير سلبي على النموذج، حيث تراجعت النتائج بين 3.4 إلى 10.9 نقطة مئوية تحت المستوى المثالي.
قد تبدو المشكلة أكثر تعقيدًا عند النظر في التجربة على نموذج آخر، إذ كانت النتائج مشابهة مع Qwen-2.5-VL-3B. كما أظهر الباحثون أن التأثير السلبي كان أشد تأثيرًا عند استخدام محققين أكثر دقة ولكنهم ما زالوا غير صحيحين، مما يسلط الضوء على ضرورة قياس دقة معايير الأداء قبل استخدام أي نظام تحقق.
في النهاية، يوصي الباحثون بضرورة تقييم جودة المحققين بناءً على المهمة المستهدفة بدلاً من استخدام عدد المعلمات فقط. يجب أن تتبنى الفرق هذه الاستراتيجيات لضمان أداء قوي لنماذجها عند التعامل مع مهام جديدة.
عندما تتعثر الموديلات: كيف تؤثر آلية التحقق على أداء نماذج اللغة البصرية
تظهر الأبحاث أن نماذج اللغة البصرية (Visual-Language Models) قد لا تحسن أدائها عند استخدام أدوات تحقق معينة، بل قد تتراجع تحت ظروف معينة. اكتشفنا أن أداء المحققين متغير حسب المهمة مما يؤثر سلباً على نتائج النموذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
