لا يزال تلخيص الفيديو إلى نص قضية قيد التطوير، حيث تفتقر طرق التقييم التقليدية إلى الشمولية. يعتمد معظم هذه الطرق على مقارنة الملخصات المكتوبة يدويًا، مما يحد من فعاليتها ومرونتها تجاه الفروق الدقيقة في المعاني. لكن مع ظهور QEVA، أصبح بالإمكان تقييم summaries الفيديو بطريقة مبتكرة ومباشرة من خلال أسئلة متعددة الوسائط (Multimodal Question Answering).
تقوم QEVA بتقييم الملخصات وفق ثلاثة أبعاد رئيسية:
1. **التغطية (Coverage)**: مدى شمولية الملخص لما يحتويه الفيديو.
2. **الدقة (Factuality)**: صحة المعلومات الواردة في الملخص.
3. **التسلسل الزمني (Chronology)**: الترتيب الصحيح للأحداث المذكورة.
لضمان دقة التقييم، تم تقديم MLVU(VS)-Eval، وهو معيار جديد موثق مبني على مجموعة بيانات MLVU. تحتوي هذه المجموعة على 800 ملخص تم إنشاؤها من 200 فيديو باستخدام نماذج متعددة الوسائط المتطورة. هذا يوفر إطار عمل شفاف ومتسق لتقييم الملخصات.
أظهرت النتائج التجريبية أن QEVA يحقق توافقًا أعلى مع التقييمات البشرية مقارنةً بالطرق الحالية، مما يعزز من دوره في البحث فعليًا في مجالي تلخيص الفيديو إلى نصوص.
نتطلع إلى أن يسهم هذا المعيار الجديد في دفع الأبحاث إلى الأمام ويوفر رؤى قيمة لتطوير طرق تقييم ملخصات الفيديو المستقبلية.
QEVA: المعيار الثوري لتقييم تلخيص الفيديوهات بلا مراجع
تقدم QEVA نهجًا مبتكرًا لتقييم تلخيص الفيديو بطرق جديدة تتجاوز الحاجة إلى المراجع التقليدية. تتميز هذه الطريقة بتقييم تلخيصات الفيديو استنادًا إلى الإجابات على الأسئلة متعددة الوسائط.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
