في عصر الذكاء الاصطناعي المتقدم، تبرز الحاجة لفهم الفيديوهات بشكل أكثر دقة، وهو ما تلبي احتياجاته تقنية VideoSeeker الجديدة. استخدمت نماذج الرؤية واللغة الضخمة (Large Vision-Language Models - LVLMs) في العمل على تحسين فهم المحتوى الفيديوي، لكنها واجهت تحديات كبيرة في تحقيق الدقة المطلوبة في تمييز المواقع الزمانية والمكانية على مستوى العناصر.

وعلى الرغم من أن الطرق الحالية ترتكز بشكل أساسي على تقديم نصوص مفهومة من قبل الإنسان، إلا أن هذه النصوص غالباً ما تعاني من عدم القدرة على تقديم إشارات دقيقة تضمن تجربة استخدام فعالة. كما أن هذه الأساليب الموجودة عادةً ما تفصل بين الإدراك البصري والمنطق اللغوي، مما يقتصر التفكير على اللغة بدلاً من المحتوى البصري، وهذا يحد من قدرة النموذج على إدراك الأدلة البصرية الدقيقة بشكل استباقي.

لهذا، اقترحت الدراسة الجديدة التي تمثل VideoSeeker، نمطاً مبتكراً لفهم الفيديوهات على مستوى العناصر عبر إدماج الإشارات البصرية. حيث تمزج هذه التقنية بين التفكير الوكالي ومهام فهم الفيديو، مما يُتيح للنموذج القدرة على إدراك واسترجاع أجزاء الفيديو ذات الصلة عند الطلب.

وقد تم إنشاء نظام إنتاج بيانات تلقائي مكون من أربع مراحل لتوليد بيانات فيديو بدقة عالية على مستوى العناصر. ومن خلال التدريب بجانب العوامل الباردة والتعلم المعزز (Reinforcement Learning - RL)، تم دمج قدرات استدعاء الأدوات والإدراك الاستباقي ضمن النموذج، مما أدى إلى بناء نموذج قوي لفهم الفيديو.

وتشير التجارب إلى أن النموذج الجديد المحسن يُحقق تحسناً متوسطاً يصل إلى +13.7% مقارنة بالنماذج السابقة في مهام فهم الفيديو على مستوى العناصر، متجاوزاً نماذج مغلقة المصدر مثل GPT-4o وGemini-2.5-Pro، وكما أظهر فعالية في النقل على المعايير العامة لفهم الفيديو.

سيتم إصدار البيانات والكود ذات الصلة للجمهور، ما يسمح للباحثين والمطورين بالاستفادة من هذه التقنية الرائدة.