في عالم يرتفع فيه مستوى تبادل المحتوى المرئي، يبقى فهم محتويات الفيديو بشكل دقيق واحداً من أكبر التحديات التي يواجهها الباحثون في مجال الذكاء الاصطناعي. طرق تحليل الفيديو التقليدية غالبًا ما تعتبر الفيديو كحدث واحد يحتوي على عدة صور، مما يتسبب في تجاهل الفروق الدقيقة بين الأحداث المختلفة داخل الفيديو. ولتجاوز هذه المشكلة، تم تقديم مساعد الفيديو المعتمد على الأحداث (EVIS)، الذي يعتمد على أساليب جديدة تسهل فهم محتويات الفيديو عن طريق تقسيمه إلى مجموعة من الأحداث البسيطة.
يستند EVIS إلى فكرة أن التعبيرات اللغوية الطبيعية يمكن أن تُستخدم لتقسيم الفيديو إلى مقاطع منفصلة مترابطة نصيًا، حيث يمثل كل مقطع حدثًا مختلفًا ضمن حدث مركب. هذا المساعد يستخدم استعلامات الأحداث (Event Queries) لتحديد ومراقبة هذه الأحداث، مما يساعد على استخراج ميزات بصرية ونصية متعلقة بكل حدث.
إضافة إلى ذلك، تم تطوير تقنية التعلم الهجين (Object-Pixel-Hybrid Learning) التي تمكّن نماذج التعلم اللغوي الكبيرة (MLLMs) من تتبع الأهداف في الفيديوهات طويلة المدة، من خلال دمج الميزات الدقيقة المستندة إلى البكسلات مع استعلامات الكائنات السابقة.
تظهر النتائج التجريبية على خمسة معايير عامة مدى فعالية EVIS في تحسين أداء تقسيم الفيديو المعتمد على الإحالة، مما يفتح آفاق جديد لفهم المحتوى المرئي بشكل أعمق.
ثورة في تحليل الفيديو: مساعد الفيديو المعتمد على الأحداث لفهم دقيق للمشاهد
تمكن مساعد الفيديو المعتمد على الأحداث (EVIS) من تقديم طرق جديدة لفهم الفيديو من خلال تقسيمه إلى أحداث بسيطة، ما يسهل عملية معالجة المحتوى المعقد. هذه الطريقة تعد خطوة هامة في مجال تقنيات الرؤية الحاسوبية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
