في عالم الذكاء الاصطناعي، تلعب [نماذج تحويل](/tag/[نماذج](/tag/نماذج)-[تحويل](/tag/تحويل)) [الصور](/tag/الصور) إلى [فيديو](/tag/فيديو) (Image-to-Video [Models](/tag/models)) دوراً مهماً، إلا أن هناك تحدياً كبيراً في قدرتها على [توليد](/tag/توليد) مشاهد [ديناميكية](/tag/ديناميكية). غالباً ما تبقى مقاطع الفيديو التي تُنتجها هذه [النماذج](/tag/النماذج) ثابتة بشكل مفرط مقارنةً بنماذج [تحويل النصوص](/tag/[تحويل](/tag/تحويل)-النصوص) إلى [فيديو](/tag/فيديو) (Text-to-Video [Models](/tag/models)).
للتغلب على هذه المشكلة، كانت هناك محاولات سابقة لتخفيف تأثير [الصورة](/tag/الصورة) المرجعية، ولكنها كانت تتطلب تدريباً إضافياً أو تؤثر على [دقة](/tag/دقة) [الصورة](/tag/الصورة) المرجعية. في [هذا العمل](/tag/هذا-العمل) الحديث، تم تحديد مشكلة تُعرف بـ "[سيطرة](/tag/سيطرة) إطار المرجعية" (Reference-frame dominance) كآلية رئيسية تؤدي إلى كبت [الحركة](/tag/الحركة).
أظهرت الدراسات أن الإطارات غير المرجعية في [نماذج تحويل](/tag/[نماذج](/tag/نماذج)-[تحويل](/tag/تحويل)) [الصور](/tag/الصور) إلى [فيديو](/tag/فيديو) تُخصص اهتماماً مفرطاً لرموز الإطار المرجعي، مما يؤدي إلى تفشي [المعلومات](/tag/المعلومات) المرجعية [عبر](/tag/عبر) الزمن وكبت الديناميات بين الإطارات. استناداً إلى هذه الملاحظة، تم تقديم طريقة جديدة تحت اسم [DyMoS](/tag/dymos) (Dynamic Motion Slider).
تتمثل [الميزة](/tag/الميزة) الرئيسية لـ [DyMoS](/tag/dymos) في كونها طريقة لا تتطلب إعادة تدريب، وتتناسب مع مختلف النماذج، حيث تعيد التوازن في مسار [الانتباه](/tag/الانتباه) بين الإطارات المولدة وإطار المرجعية خلال خطوات [إزالة الضجيج](/tag/إزالة-الضجيج) الأولية. الأهم من ذلك، أن [DyMoS](/tag/dymos) يحافظ على كل من [الصورة](/tag/الصورة) المدخلة ووزن النموذج دون تغيير، ويُدخل معلمة سكلارية واحدة للتحكم المستمر في [قوة](/tag/قوة) [الحركة](/tag/الحركة).
أظهرت [التجارب](/tag/التجارب) التي تمت على عدة [نماذج متقدمة](/tag/[نماذج](/tag/نماذج)-متقدمة) في مجال [تحويل الصور](/tag/[تحويل](/tag/تحويل)-[الصور](/tag/الصور)) إلى [فيديو](/tag/فيديو) أن [DyMoS](/tag/dymos) يُحسن [الديناميات الحركية](/tag/الديناميات-الحركية) بشكل ثابت دون المساس بجودة [الصورة](/tag/الصورة) أو دقتها. هذه التطورات تشير إلى إمكانيات جديدة مثيرة لتوسيع حدود ما يمكن تحقيقه في [إنشاء المحتوى](/tag/إنشاء-المحتوى) المرئي باستخدام [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).
ثورة في نماذج تحويل الصور إلى فيديو: إعادة التوازن لتحسين الحركة!
اكتشاف جديد في عالم نماذج تحويل الصور إلى فيديو يُبرز مشكلة سيطرة إطار المرجعية على الحركة. يقدم الباحثون طريقة مبتكرة تُدعى DyMoS لتحسين الديناميات الحركية دون الحاجة لتدريب إضافي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
