في عالم الذكاء الاصطناعي، تطورت نماذج تقييم المكافآت المتعددة الوسائط بشكل ملحوظ في مجالات النصوص والصور. لكن ما زال هناك نقص كبير في التقدم الخاص بفهم الفيديو بسبب غياب معايير تقييم قوية وبيانات تفضيل عالية الجودة. للتغلب على هذه التحديات، نقدم إطارًا موحدًا يجمع بين تصميم المعايير، وبناء البيانات، وتدريب نماذج المكافآت.

نقدم معيار "Video Understanding Reward Bench (VURB)" الذي يتضمن 2,100 زوج تفضيلات مع آثار تفكير طويلة (متوسط 1,143 رمزا) وتقييم عبر تصويت الأغلبية لمهام الفيديو العامة والطويلة والموجهة نحو التفكير. كما نقوم ببناء مجموعة بيانات "Video Understanding Preference Dataset (VUP-35K)" عبر خط أنابيب آلي بالكامل، مما يوفر إشرافًا عالي الجودة على نطاق واسع لتدريب المكافآت الخاصة بالفيديو.

بناءً على هذه البيانات، نقوم بتدريب "VideoDRM" و"VideoGRM"، وهما نموذج مكافآت تمييزي وتوليدي، وكلاهما يحقق أداءً متقدمًا على VURB و"VideoRewardBench". تؤكد التحليلات الإضافية أن VUP-35K تعزز من أداء المكافآت وقدرة التفكير لدى النماذج، في حين تحقق "VideoDRM" و"VideoGRM" مكاسب كبيرة خلال اختبار القدرة على التوسع.

بينما نتقدم بخطوات كبيرة نحو تحسين فهم الفيديو، ما رأيكم في هذا التطور؟ شاركونا في التعليقات.