في عالم يتزايد فيه الاعتماد على الفيديوهات كوسيلة للتواصل ونقل المعلومات، تظهر الحاجة الملحة لتطوير تقنيات فعالة لاسترجاع مقاطع الفيديو بناءً على استعلامات نصية. يهدف مشروع Video Corpus Moment Retrieval (VCMR) إلى استرجاع الفيديو الصحيح مع تحديد المنطقة الزمنية المرتبطة باستعلامات اللغة الطبيعية. ومع ذلك، فإن هذه المهمة تصبح معقدة بشكل خاص عندما تتضمن استعلامات تحتوي على عدة أفعال، حيث يكون ترتيب الأفعال الزمنية أمرًا بالغ الأهمية.

تستخدم الأساليب التقليدية غالبًا النصوص أو الصور الثابتة فقط، مما يجعلها تواجه صعوبات في التقاط الديناميات الحركية الضمنية. وهنا يأتي دور 'جن سبان' (GenSpan)، وهو إطار عمل متطور يمزج بين تقنيات الذكاء الاصطناعي لتحسين دقة استرجاع مقاطع الفيديو.

يقوم 'جن سبان' ببناء مقاطع فيديو مساعدة قصيرة باستخدام التلميحات المختارة من نماذج اللغات الضخمة (Large Language Models - LLM) والأحداث الفرعية المفككة، ويستخدمها كأولويات زمنية بدلاً من أهداف استرجاع مباشرة. كما يتضمن استخدام مكون اختيار الرموز الذي يقوم بفلترة ميزات الفيديو المرشحة المتوافقة مع الحركة المتولدة، مما يسمح بنموذج الحالة الثنائية الاتجاه (Bidirectional State-Space Model) بالتنبؤ بكفاءة بتوائم الفيديو والمراحل الزمنية.

تظهر التجارب على مجموعتي بيانات TVR وActivityNet-Captions أن 'جن سبان' يحقق تحسينات ملحوظة في استرجاع البيانات على مستوى القوام، وتحديد اللحظات، خاصة عند التعامل مع استعلامات متعددة الإجراءات، مع تقليل التكاليف الحاسوبية مقارنة بالأساليب الرائدة في مجال الفضاء المتعدد الوسائط.