في عالم الذكاء الاصطناعي، تلعب نماذج تحويل الصور إلى فيديو (Image-to-Video Models) دوراً مهماً، إلا أن هناك تحدياً كبيراً في قدرتها على توليد مشاهد ديناميكية. غالباً ما تبقى مقاطع الفيديو التي تُنتجها هذه النماذج ثابتة بشكل مفرط مقارنةً بنماذج تحويل النصوص إلى فيديو (Text-to-Video Models).

للتغلب على هذه المشكلة، كانت هناك محاولات سابقة لتخفيف تأثير الصورة المرجعية، ولكنها كانت تتطلب تدريباً إضافياً أو تؤثر على دقة الصورة المرجعية. في هذا العمل الحديث، تم تحديد مشكلة تُعرف بـ "سيطرة إطار المرجعية" (Reference-frame dominance) كآلية رئيسية تؤدي إلى كبت الحركة.

أظهرت الدراسات أن الإطارات غير المرجعية في نماذج تحويل الصور إلى فيديو تُخصص اهتماماً مفرطاً لرموز الإطار المرجعي، مما يؤدي إلى تفشي المعلومات المرجعية عبر الزمن وكبت الديناميات بين الإطارات. استناداً إلى هذه الملاحظة، تم تقديم طريقة جديدة تحت اسم DyMoS (Dynamic Motion Slider).

تتمثل الميزة الرئيسية لـ DyMoS في كونها طريقة لا تتطلب إعادة تدريب، وتتناسب مع مختلف النماذج، حيث تعيد التوازن في مسار الانتباه بين الإطارات المولدة وإطار المرجعية خلال خطوات إزالة الضجيج الأولية. الأهم من ذلك، أن DyMoS يحافظ على كل من الصورة المدخلة ووزن النموذج دون تغيير، ويُدخل معلمة سكلارية واحدة للتحكم المستمر في قوة الحركة.

أظهرت التجارب التي تمت على عدة نماذج متقدمة في مجال تحويل الصور إلى فيديو أن DyMoS يُحسن الديناميات الحركية بشكل ثابت دون المساس بجودة الصورة أو دقتها. هذه التطورات تشير إلى إمكانيات جديدة مثيرة لتوسيع حدود ما يمكن تحقيقه في إنشاء المحتوى المرئي باستخدام الذكاء الاصطناعي.