في عالم الذكاء الاصطناعي، تُعتبر نماذج الربط بين الرؤية واللغة (Vision-Language Process Reward Models) أدوات قوية يمكن أن تساهم في تقييم خطوات التفكير المعقدة وإعادة ترتيب النتائج. ولكن، غالبًا ما تعمل هذه النماذج بشكل غامض، حيث قد تؤدي درجة تقييم منخفضة إلى حالة من الالتباس: هل الخطأ ناتج عن خطأ حقيقي في التفكير أم مجرد سوء فهم لصورة معينة؟

هذا الالتباس بين الإدراك والتفكير يمكن أن يؤدي إلى إيجابيات كاذبة (مثل منح مكافآت لمفاهيم بصرية غير موجودة) وسلبيات كاذبة (كما يحدث عند معاقبة تصريحات صحيحة)، مما يضعف من موثوقية تقييمات النموذج. لذلك، تم تقديم نموذج التحقق البصري الصريح (Explicit Visual Premise Verification أو EVPV) كحل مبتكر.

هذا النموذج يعتمد على واجهة تحقق خفيفة تعمل على ربط تقييم الخطوات بموثوقية المفاهيم البصرية التي تعتمد عليها. من خلال عرض قائمة مرجعية بصرية في كل خطوة، يوضح EVPV الحقائق البصرية المطلوبة، بينما يعمل مستخرج القيود بشكل مستقل على استخلاص القيود البصرية المنظمة من الصورة المدخلة.

تقوم هذه العملية بمطابقة مطالب القائمة المرجعية ضد هذه القيود، مما ينتج عنه إشارة موثوقية بصرية تُستخدم في تعديل مكافآت النموذج بناءً على موثوقية الخطوات: تُخفض المكافآت للخطوات التي تعتمد على رؤية غير موثوقة، في حين تُحفظ لمكافآت الخطوات ذات الموثوقية العالية.

أظهرت التجارب على مجموعة VisualProcessBench وستة معايير متعددة الوسائط تحسينات ملحوظة في التحقق من مستوى الخطوات وزيادة دقة إعادة الترتيب بشكل ملحوظ مقارنة بنماذج قوية سابقة.

علاوة على ذلك، أدى إدخال تشويش رقمي مقصود إلى القيود المستخرجة إلى انحدار متدرج في الأداء، مما يوفر دليلاً سببياً على أن هذه التحسينات تنبع من موثوقية القيود والتحقق الصريح من الفرضيات وليس من تأثيرات دعائية عارضة. يمكنكم الاطلاع على الشيفرة المصدرية المتاحة على [GitHub](https://github.com/Qwen-Applications/EVPV-PRM).