في الآونة الأخيرة، شهد تحرير الفيديو القائم على التعليمات (Instruction-based Video Editing) تقدمًا مذهلاً، لكن التحديات لا تزال قائمة. تكمن المشكلة في أن اللغة الطبيعية تعاني من عجز في وصف الفروق البصرية الدقيقة التي يحتاجها المحررون. ولكن، تقنية تحرير الفيديو المعتمدة على المراجع (Reference-guided Editing) تقدم حلًّا قويًّا، على الرغم من ندرة البيانات التعليمية عالية الجودة اللازمة.

لمعالجة هذا القصور، تم تقديم خط أنابيب مبتكر لتوليد البيانات (Data Generation Pipeline) قادر على تحويل أزواج تحرير الفيديو الموجودة إلى مجموعات تعليمية عالية الجودة من خلال استخدام نماذج توليد الصور (Image Generative Models) لإنشاء مرافق مرجعية مصنعة.

استنادًا إلى هذه الفكرة، تم إنشاء مجموعة بيانات جديدة تُعرف باسم RefVIE، وهي مجموعة واسعة النطاق مخصصة لمهام تتبع التعليمات المرجعية، بالإضافة إلى تأسيس معيار تقييم شامل يُدعى RefVIE-Bench.

كما تم تقديم معمارية تحرير موحدة تُدعى كي وي-إد، التي تتكامل فيها الاستفسارات القابلة للتعلم (Learnable Queries) والميزات البصرية الكامنة (Latent Visual Features) لتوفير إرشادات ذات دلالة راجعة.

حقق نموذجنا تحسينات ملحوظة في اتباع التعليمات (Instruction Following) ودقة المرجع (Reference Fidelity) بفضل منهج تدريبي تدريجي متعدد المراحل. وأثبتت التجارب الشاملة أن بياناتنا ومعماريتنا تجلب معيارًا جديدًا في تحرير الفيديو القابل للتحكم. جميع البيانات والنماذج والشفرة البرمجية متاحة الآن عبر موقعنا: [Kiwi-Edit GitHub](https://github.com/showlab/Kiwi-Edit).

ما رأيكم في هذه التقنية الثورية في تحرير الفيديو؟ شاركونا آرائكم في التعليقات!