في عصر [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) المتقدم، تبرز الحاجة لفهم الفيديوهات بشكل أكثر دقة، وهو ما تلبي احتياجاته [تقنية](/tag/تقنية) VideoSeeker الجديدة. استخدمت [نماذج [الرؤية](/tag/الرؤية) واللغة](/tag/[نماذج](/tag/نماذج)-[الرؤية](/tag/الرؤية)-واللغة) الضخمة (Large [Vision-Language Models](/tag/vision-language-models) - LVLMs) في العمل على [تحسين](/tag/تحسين) [فهم](/tag/فهم) المحتوى الفيديوي، لكنها واجهت [تحديات](/tag/تحديات) كبيرة في [تحقيق](/tag/تحقيق) [الدقة](/tag/الدقة) المطلوبة في تمييز المواقع الزمانية والمكانية على مستوى العناصر.
وعلى الرغم من أن الطرق الحالية ترتكز بشكل أساسي على تقديم [نصوص](/tag/نصوص) مفهومة من قبل الإنسان، إلا أن هذه النصوص غالباً ما تعاني من عدم القدرة على تقديم [إشارات](/tag/إشارات) دقيقة تضمن تجربة استخدام فعالة. كما أن هذه الأساليب الموجودة عادةً ما تفصل بين الإدراك البصري والمنطق اللغوي، مما يقتصر [التفكير](/tag/التفكير) على [اللغة](/tag/اللغة) بدلاً من المحتوى البصري، وهذا يحد من قدرة النموذج على [إدراك](/tag/إدراك) [الأدلة](/tag/الأدلة) البصرية الدقيقة بشكل استباقي.
لهذا، اقترحت [الدراسة](/tag/الدراسة) الجديدة التي تمثل VideoSeeker، نمطاً مبتكراً لفهم الفيديوهات على مستوى العناصر [عبر](/tag/عبر) إدماج الإشارات البصرية. حيث تمزج هذه [التقنية](/tag/التقنية) بين [التفكير](/tag/التفكير) الوكالي ومهام [فهم](/tag/فهم) الفيديو، مما يُتيح للنموذج القدرة على [إدراك](/tag/إدراك) واسترجاع أجزاء الفيديو ذات الصلة عند الطلب.
وقد تم إنشاء نظام إنتاج [بيانات](/tag/بيانات) تلقائي مكون من أربع مراحل لتوليد [بيانات](/tag/بيانات) [فيديو](/tag/فيديو) بدقة عالية على مستوى العناصر. ومن خلال [التدريب](/tag/التدريب) بجانب العوامل الباردة والتعلم المعزز ([Reinforcement Learning](/tag/reinforcement-learning) - RL)، تم دمج قدرات استدعاء [الأدوات](/tag/الأدوات) والإدراك الاستباقي ضمن النموذج، مما أدى إلى [بناء](/tag/بناء) [نموذج قوي](/tag/[نموذج](/tag/نموذج)-قوي) لفهم الفيديو.
وتشير [التجارب](/tag/التجارب) إلى أن النموذج الجديد المحسن يُحقق تحسناً متوسطاً يصل إلى +13.7% مقارنة بالنماذج السابقة في مهام [فهم الفيديو](/tag/[فهم](/tag/فهم)-الفيديو) على مستوى العناصر، متجاوزاً [نماذج](/tag/نماذج) مغلقة المصدر مثل [GPT-4o](/tag/gpt-[4o](/tag/4o)) وGemini-2.5-Pro، وكما أظهر فعالية في [النقل](/tag/النقل) على [المعايير](/tag/المعايير) العامة لفهم الفيديو.
سيتم إصدار [البيانات](/tag/البيانات) والكود ذات الصلة للجمهور، ما يسمح للباحثين والمطورين بالاستفادة من هذه [التقنية](/tag/التقنية) الرائدة.
VideoSeeker: ثورة في فهم الفيديوهات بذكاء اصطناعي متطور!
تقدم VideoSeeker نهجاً جديداً لفهم الفيديوهات من خلال دمج التفكير الوكالي مع مهام التحليل الدقيق. هذه التقنية تصبو إلى تحسين تجربة المستخدم في التعرف على المحتوى الفيديوي بدقة متناهية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
