في السنوات الأخيرة، شهدت جهود المصدر المفتوح مثل Senorita-2M تحوّلًا مثيرًا في تحرير مقاطع الفيديو باستخدام تعليمات اللغة الطبيعية. ولكن للأسف، تركزت قواعد البيانات المتاحة للجمهور بشكل رئيسي على التحرير المحلي أو نقل الأنماط، مما أدى إلى الحفاظ على بنية المشهد الأصلية وجعل الأمر أسهل في التوسع.
وفي الوقت نفسه، تظل عملية استبدال الخلفيات مهمة محورية في التطبيقات الإبداعية، مثل إنتاج الأفلام والإعلانات، حيث تحتاج إلى توليد مشاهد جديدة تمامًا ومتسقة زمنيًا مع الحفاظ على تفاعلات دقيقة بين المقدمة والخلفية. هذه المهمة تمثل تحديًا كبيرًا، نظرًا للاحتياج إلى بيانات تدريب ذات جودة عالية.
تظهر الدراسات أن النماذج المتطورة الحالية، مثل Kiwi-Edit، تعاني من نقص في جودة الخلفيات، حيث توفر قاعدة بيانات OpenVE-3M المستخدمة في هذا المجال أحيانًا خلفيات ثابتة وغير طبيعية. وقد تم اكتشاف أن تدهور الجودة يعود إلى نقص التوجيه الدقيق للخلفيات خلال مراحل تركيب البيانات.
لذا، قمنا بتصميم خط أنابيب قابل للتوسع يولد توجيهات المقدمة والخلفية بطريقة مفصولة مع فلترة دقيقة للجودة. استنادًا إلى هذا الخط، نقدم Sparkle، وهي مجموعة بيانات تحتوي على نحو 140,000 زوج من مقاطع الفيديو تغطي خمسة موضوعات شائعة لتغيير الخلفية، إلى جانب Sparkle-Bench، وهو أكبر معيار تقييم تم تصميمه لاستبدال الخلفيات حتى الآن.
تظهر التجارب أن مجموعة بياناتنا والنموذج المدرب عليها حققت أداءً أفضل بشكل ملحوظ من جميع المعايير الحالية على كل من OpenVE-Bench وSparkle-Bench. نحن فخورون بأن نقدم مجموعة البيانات والمعيار والنموذج بشكل مفتوح على الإنترنت، في خطوة تدعم الابتكار والتطور في صناعة تحرير الفيديو.
Sparkle: ثورة في استبدال الخلفيات بالفيديو بتعليمات حية وذكية!
تمثل Sparkle تطورًا جديدًا في عالم استبدال خلفيات الفيديو، حيث تقدم بيانات دقيقة ومرتفعة الجودة تتيح للمستخدمين إنشاء مشاهد متناسقة بصريًا بسهولة. انضموا إلى رحلة الابتكار في تحرير الفيديوهات مع هذا النموذج الرائد!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
