نموذج تقييم المكافآت في فهم الفيديو: معيار قوي ونماذج مكافآت فعالة

تقدم نماذج تقييم المكافآت المتعددة الوسائط قفزة نوعية في مجالات النصوص والصور، ولكن يظل فهم الفيديو في حاجة ماسة إلى تقييم قوي وبيانات تفضيل عالية الجودة. نقدم إطاراً موحداً للتصميم، وبناء البيانات، وتدريب نماذج المكافآت.

في عالم الذكاء الاصطناعي، تطورت نماذج تقييم المكافآت المتعددة الوسائط بشكل ملحوظ في مجالات النصوص والصور. لكن ما زال هناك نقص كبير في التقدم الخاص بفهم الفيديو بسبب غياب معايير تقييم قوية وبيانات تفضيل عالية الجودة. للتغلب على هذه التحديات، نقدم إطارًا موحدًا يجمع بين تصميم المعايير، وبناء البيانات، وتدريب نماذج المكافآت.

نقدم معيار "Video Understanding Reward Bench (VURB)" الذي يتضمن 2,100 زوج تفضيلات مع آثار تفكير طويلة (متوسط 1,143 رمزا) وتقييم عبر تصويت الأغلبية لمهام الفيديو العامة والطويلة والموجهة نحو التفكير. كما نقوم ببناء مجموعة بيانات "Video Understanding Preference Dataset (VUP-35K)" عبر خط أنابيب آلي بالكامل، مما يوفر إشرافًا عالي الجودة على نطاق واسع لتدريب المكافآت الخاصة بالفيديو.

بناءً على هذه البيانات، نقوم بتدريب "VideoDRM" و"VideoGRM"، وهما نموذج مكافآت تمييزي وتوليدي، وكلاهما يحقق أداءً متقدمًا على VURB و"VideoRewardBench". تؤكد التحليلات الإضافية أن VUP-35K تعزز من أداء المكافآت وقدرة التفكير لدى النماذج، في حين تحقق "VideoDRM" و"VideoGRM" مكاسب كبيرة خلال اختبار القدرة على التوسع.

بينما نتقدم بخطوات كبيرة نحو تحسين فهم الفيديو، ما رأيكم في هذا التطور؟ شاركونا في التعليقات.

جاري تحميل التفاعلات...

نموذج تقييم المكافآت في فهم الفيديو: معيار قوي ونماذج مكافآت فعالة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في الذكاء الاصطناعي: تنفيذ ذاتي لعملاء نماذج اللغة!

اكتشاف FlowAgent: الابتكار الثوري في الذكاء الاصطناعي لتطوير التفكير المنطقي

ثورة في دقة التفكير: تقنية CASPO لتعزيز موثوقية نماذج الذكاء الاصطناعي!