في عالم الذكاء الاصطناعي، تمثل عملية "تحديد الزمن" (Temporal Grounding) في مقاطع الفيديو أحد أبرز التحديات، وخاصةً عند التعامل مع المحتويات الطويلة. رغم أن هذا المجال قد تم دراسته في سياق مقاطع الفيديو القصيرة، إلا أن التفاعلات الزمنية في مقاطع الفيديو التي تمتد لساعات تبقى غير مستكشفة بشكل كافٍ.

تعتبر دراسة جديدة نشرت في arXiv تعكس هذه الإشكالية، حيث تعقد النقاش حول أن العائق الرئيسي ليس هو القدرة على التعرف على الأحداث القريبة، بل يتمثل في قدرة الذكاء الاصطناعي على البحث عن المناطق ذات الصلة ضمن محتوى يستمر لساعات.

لتقييم هذا، قامت الدراسة بإطلاق "ExtremeWhenBench"، وهو أول معيار مفتوح لتحديد الزمن في مقاطع الفيديو الطويلة. يشتمل المعيار الجديد على 2,273 استفسارًا عبر 194 فيديو، بمعدل وقت يصل إلى 75.7 دقيقة، وبعض الفيديوهات تصل إلى 9 ساعات.

أظهرت الاختبارات أن جميع نماذج الفيديو الكبيرة (Video-LLMs) تنهار عندما يتعلق الأمر بالتعامل مع هذه الأبعاد الزمنية الطويلة، في حين أن أسلوب استرجاع المعلومات على مستوى الإطارات يتفوق عليها. ولسوء الحظ، 85% من حالات الفشل كانت نتيجة لهاجس البحث، ما يلقي الضوء على أهمية تحسين هذه الميزة لتحقيق النتائج المرجوة.

يتمثل الحل في نموذج هجين يجمع بين الاسترجاع والاتجاه نحو المعلومات، حيث يتمكن من استعادة 6.7 ضعف النتائج مقارنة بنموذج Video-LLMs التقليدي، مُماثلًا الأسلوب الأساس في أسئلة مفتوحة في الذكاء الاصطناعي.