تحقيق الموثوقية: تطوير نموذج تحقق بصرية يثري تجارب الربط بين الرؤية واللغة

في عالم الذكاء الاصطناعي، تُعتبر نماذج الربط بين الرؤية واللغة (Vision-Language Process Reward Models) أدوات قوية يمكن أن تساهم في تقييم خطوات التفكير المعقدة وإعادة ترتيب النتائج. ولكن، غالبًا ما تعمل هذه النماذج بشكل غامض، حيث قد تؤدي درجة تقييم منخفضة إلى حالة من الالتباس: هل الخطأ ناتج عن خطأ حقيقي في التفكير أم مجرد سوء فهم لصورة معينة؟

هذا الالتباس بين الإدراك والتفكير يمكن أن يؤدي إلى إيجابيات كاذبة (مثل منح مكافآت لمفاهيم بصرية غير موجودة) وسلبيات كاذبة (كما يحدث عند معاقبة تصريحات صحيحة)، مما يضعف من موثوقية تقييمات النموذج. لذلك، تم تقديم نموذج التحقق البصري الصريح (Explicit Visual Premise Verification أو EVPV) كحل مبتكر.

هذا النموذج يعتمد على واجهة تحقق خفيفة تعمل على ربط تقييم الخطوات بموثوقية المفاهيم البصرية التي تعتمد عليها. من خلال عرض قائمة مرجعية بصرية في كل خطوة، يوضح EVPV الحقائق البصرية المطلوبة، بينما يعمل مستخرج القيود بشكل مستقل على استخلاص القيود البصرية المنظمة من الصورة المدخلة.

تقوم هذه العملية بمطابقة مطالب القائمة المرجعية ضد هذه القيود، مما ينتج عنه إشارة موثوقية بصرية تُستخدم في تعديل مكافآت النموذج بناءً على موثوقية الخطوات: تُخفض المكافآت للخطوات التي تعتمد على رؤية غير موثوقة، في حين تُحفظ لمكافآت الخطوات ذات الموثوقية العالية.

أظهرت التجارب على مجموعة VisualProcessBench وستة معايير متعددة الوسائط تحسينات ملحوظة في التحقق من مستوى الخطوات وزيادة دقة إعادة الترتيب بشكل ملحوظ مقارنة بنماذج قوية سابقة.

علاوة على ذلك، أدى إدخال تشويش رقمي مقصود إلى القيود المستخرجة إلى انحدار متدرج في الأداء، مما يوفر دليلاً سببياً على أن هذه التحسينات تنبع من موثوقية القيود والتحقق الصريح من الفرضيات وليس من تأثيرات دعائية عارضة. يمكنكم الاطلاع على الشيفرة المصدرية المتاحة على [GitHub](https://github.com/Qwen-Applications/EVPV-PRM).

تحقيق الموثوقية: تطوير نموذج تحقق بصرية يثري تجارب الربط بين الرؤية واللغة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

NVIDIA تطلق SANA-WM: نموذج عالمي مفتوح المصدر يولد فيديوهات دقيقة بدقة 720p باستخدام GPU واحد!

مواجهة بين ماسك وألتمن: تحولات دراماتيكية في المحاكمة الأخيرة!

بذكاء اصطناعي: باحثون يخترقون نظام macOS ويكشفون عن ثغرات مثيرة!