تطورت تقنيات استرجاع المعلومات (RAG) لتتجاوز النصوص إلى عالم الفيديوهات الطويلة، مما يفتح أمامنا إمكانيات جديدة لفهم وتفاعل مع المحتوى. يتطلب هذا المجال من الأنظمة اختيار أجزاء متعلقة بالاستعلام عبر أنماط متعددة ودرجات زمنية مختلفة. لكن، تبقى هناك ثغرتان تعيقان التقدم في تقنيات VideoRAG.

أولاً، الاختبارات الحالية تسمح بالإجابة على الاستعلامات دون الحاجة لمشاهدة الفيديو، مما يؤدي إلى إخفاء الأخطاء في عمليات الاسترجاع. ثانياً، تهمل الأساليب السابقة التباين في مستويات المكونات، حيث تستخدم إعدادات واحدة لكل استعلام، بدون القدرة على الاستفادة من التنوع في المعلومات المتاحة.

لتجاوز هذه التحديات، تم تقديم V-RAGBench، وهو معيار يهدف إلى تقييم الأداء بشكل دقيق ومنفصل بين الاسترجاع والتوليد. كما تم تقديم طريقة CARVE، التي تعمل على تشغيل مسترجعين بالتوازي عبر إعدادات متعددة، مما يساعد على تحديد الإعداد الأفضل لكل جزء من الفيديو.

نتيجة لذلك، يمكن لكل جزء أن يدخل إلى الجيل وفقًا للإعداد الفائز الذي تم اختياره أثناء الاسترجاع، مما يحقق تكاملًا فريدًا بين مرحلتي الاسترجاع والتوليد. لقد أثبتت CARVE تفوقها على ثمانية نماذج VideoRAG أخرى حديثة، حيث يمكن للأجزاء أن تتداخل عبر إعدادات متعددة بدلاً من الاعتماد على واحد فقط، وهو أمر لم يكن ممكنًا بطرق الاستعلام التقليدية.

يسلط هذا التطور الضوء على الأهمية المتزايدة في دمج الذكاء الاصطناعي في معالجة الفيديو، مما يعزز من تجربة المستخدم ويتيح له الوصول إلى معلومات دقيقة وذات صلة بسهولة أكبر.