في عالم التكنولوجيا الحديث، تظل التحديات المتعلقة بفهم جودة الفيديو على المدى الطويل قائمة، خاصة بالنسبة لنماذج الرؤية-اللغة الكبيرة (Large Vision-Language Models - LVLMs). رغم أن المعايير الحالية تركز غالباً على مقاطع الفيديو القصيرة والتشوهات المعزولة، إلا أنها تغفل عنصر الاستمرارية الزمنية، وانخفاض الجودة التراكمي، وتعقيد التفكير المطلوب في المحتويات الطويلة.

لذا أطلقنا LongVQUBench، وهو معيار شامل لفهم جودة الفيديو على المدى الطويل. يحتوي LongVQUBench على أكثر من 1200 فيديو متنوع تتضمن أفلام ووثائقيات ومقاطع مراقبة وتسجيلات شخصية، بالإضافة إلى محتوى متحرك. يرافق هذه الفيديوهات 1500 سؤال متعدد الخيارات وأسئلة مفتوحة للتحقق والاختبار.

لتقييم التفكير الإدراكي عبر أبعاد زمنية مختلفة، نقدم ثلاثة مستويات تقييم تتدحرج في التعقيد: 1) فهم جودة الأحداث المحلية (Local Event Quality Understanding - LQU) لتحليل التشوهات المحلية؛ 2) التفكير في جودة الأحداث المتداخلة (Cross-Event Quality Reasoning - CQR) لدمج الأحداث المتدهورة؛ و3) الفهم العالمي للجودة (Global Quality Understanding - GQU) للتقييم الإدراكي الشامل على مدى فترات موسعة.

علاوة على ذلك، تم إدخال مفهوم أسئلة الإجابة على تشوهات الإبرة (Needle Distortion Question-Answering - NDQA) عبر جميع المستويات الثلاثة، حيث يتم إدخال معطيات زمنية أو مكانية بشكل متفرق لاختبار القدرة على الكشف والتفكير بدقة.

أظهرت التجارب الواسعة على 14 من LVLMs الأكثر تقدمًا، أن هناك تدهورًا ملحوظًا في الأداء مع زيادة طول الفيديو وعمق التفكير، مما يبرز قدرة هذه النماذج المحدودة على الدمج الزمني الطويل وعزو الإدراك.

نرى أن LongVQUBench هو خطوة أساسية نحو التقييم المنهجي، والتدرجي، والقابل للتفسير لفهم جودة الفيديو الطويل بواسطة نماذج الرؤية-اللغة.