في عالم مقاطع الفيديو المتزايد بشكل هائل، تبرز أهمية استرجاع المقاطع الزمنية (Temporal Grounding) التي تهدف إلى تمكين الكمبيوتر من تحديد مقاطع معينة تتوافق مع استعلامات نصية محددة. بينما كانت الأبحاث السابقة تدور حول استرجاع مقطع واحد فقط، فإن الواقع يتطلب أحيانًا تحديد عدة مقاطع متباينة لنفس الاستعلام، وهو ما نطلق عليه مصطلح الاسترجاع الزمني من نوع واحد إلى عدة مقاطع (One-to-Many Temporal Grounding - OMTG).

عانت النماذج اللغوية المتقدمة (MLLMs) التي تم تحسينها للاستخدامات ذات التحويل الواحد من ضعف الأداء في هذا السياق، حيث لم تتمكن من تقديم نتائج مرضية، وهو ما كان يفسر انخفاض نقاط الدقة بسبب عدم القدرة على فهم تقاطع الأحداث (event cardinality perception).

لتلبية هذه الحاجة المتزايدة، تم تقديم منهجية شاملة تتضمن ثلاث مساهمات رئيسية. أولًا، تم إنشاء معيار OMTG الشامل الأول، مع تقديم مقاييس تقييم جديدة تشمل الدقة العددية (Count Accuracy - C-Acc) و F1 الزمني الفعّال (Effective Temporal F1 - EtF1).

ثانيًا، تم تجميع مجموعة بيانات عالية الجودة تحتوي على 56,000 عينة من خلال عملية بناء متطورة. وثالثًا، تم تطوير دوال جديدة لتحفيز الزمن والتسميات، تم تصميمها خصيصًا لـOMTG، حيث تعتمد دالة التحفيز الخاصة بالتسميات على التفكير التسلسلي (Chain-of-Thought) لتحسين عملية تحسين السياسات نحو الدقة والشمولية.

أظهرت التجارب المكثفة أن نموذجنا الجديد يحقق بداية جديدة مع نسبة F1 الزمني الفعال تصل إلى 43.65% على معيار OMTG، متفوقًا على طرازات Gemini 2.5 Pro وSeed-1.8 بفارق 15.85% و15.61% على التوالي. هذا التطور يمثل خطوة هائلة تجاه استرجاع أدق وأكثر فاعلية للمحتوى الزمني، مما يتيح تحسين تجربة المستخدم وتعزيز الدقة في التطبيقات الواقعية.

ما رأيكم في هذه التطورات المثيرة في مجال الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!