في عالم تحرير الفيديو، تشهد النماذج المدعومة بالذكاء الاصطناعي تطورات متسارعة، حيث أصبحت قادرة على تنفيذ مهام أساسية، مثل نقل الأنماط (style transfer) وإضافة العناصر (object insertion). لكن عندما يتعلق الأمر بتعقيد الطلبات في العالم الحقيقي، تظهر تحديات جديدة. تلك الطلبات تتطلب تعديلات متداخلة تجمع بين تعديل الموضوعات، وتصرفات الشخصيات، وزوايا الكاميرا، دون التأثير على المحتوى غير المتعلق، مما يضع النماذج في اختبار حقيقي لقدرتها.

لaddress هذه الفجوة، تم تقديم معيار جديد يُدعى CoVEBench، والذي يعتبر مرجعًا شاملًا في تحرير الفيديو، إذ يتضمن 416 فيديو مصدر، و626 تعليمات تحرير متعددة النقاط، بالإضافة إلى 9,990 عنصر قائمة فحص دقيق. تغطي هذا المعيار مجموعة متنوعة من أبعاد التحرير، ويلتزم بتقييم النماذج بناءً على توافق التعليمات وفق مقاييس MLLM، وجودة الفيديو Mith القوالب الآلية.

من خلال تجارب واسعة، تبين أن التحرير المركب لا يزال يمثل تحديًا عميقًا، إذ غالبًا ما تفشل النماذج الحالية في تنفيذ التعديلات بالعديد من العمليات بشكل متزامن، مما يؤدي إلى تخطي بعض التعديلات أو عدم الالتزام بالشروط الموضوعة وإدخال تشوهات غير مقصودة.

بهذا الشكل، يمثل CoVEBench اختبارًا صارمًا يشجع على تحسين تقنيات تحرير الفيديو نحو تلبية متطلبات المستخدمين الحقيقية، مما يفتح الباب لتطوير نماذج متقدمة تلبي التوقعات المستقبلية.