في عالم الذكاء الاصطناعي، يشكل الفهم العميق للفيديوهات الطويلة تحديًا كبيرًا، حيث يعتمد الكثير من التطبيقات الحديثة على نماذج اللغة والرؤية الكبيرة (Large Vision-Language Models) للإجابة على الأسئلة الموجهة حول محتويات هذه الفيديوهات. ومع ذلك، يواجه الأداء تحديات عدة، أبرزها عدد الإطارات المستخدمة وكمية الرموز البصرية الناتجة.

أساليب التقييم التقليدية، مثل الاختيار العشوائي للإطارات، قد تفوت اللحظات الحاسمة في الفيديو، في حين أن الاختيار القائم على الصلة فقط قد يؤدي إلى تكرار الإطارات وافتقاره لتغطية الأدلة الزمنية البعيدة. ولحل هذه المشكلة، اقترح الباحثون طريقة جديدة لاختيار الإطارات بشكل ذكي تدعى "اختيار الإطار الذكي التكيفي".

تعمل هذه الطريقة على تحسين العلاقة بين أسئلة المستخدم والتمثيل الدلالي للإطارات، من خلال بناء مجموعة من الإطارات المرشحة التي تصل إلى 1000 إطار، مع ضمان تزامن دقيق في الطوابع الزمنية. يتم تضمين هذه الإطارات في مساحتين متميزتين (SigLIP للصلة بالسؤال وDINOv2 للتشابه الدلالي) لاختيار الإطارات عن طريق زيادة مجموع وزني لمعيارين: الموثوقية وموقع التغطية.

تتناول هذه الطريقة التبادلات المعتمدة على السؤال من خلال أربع استراتيجيات محددة مسبقًا ومصنف خفيف نصيًا يتعرف على نوع السؤال، مما يوجه كل استفسار للحصول على أفضل أداء. وقد أظهرت التجارب على مجموعة بيانات MLVU تحسينات ملحوظة في الدقة مقارنة بالاختيار المتجانس والنماذج الحديثة الأخرى، خصوصًا مع وجود قيود صارمة على عدد الإطارات.

باختصار، تكسر هذه الطريقة الحدود التقليدية المتبعة في فهم الفيديوهات الطويلة، مما يفتح آفاقًا جديدة لتحسين التجربة في مختلف تطبيقات الذكاء الاصطناعي. فما رأيكم في هذه الابتكارات الرائعة؟ شاركونا أرائكم في التعليقات.