في عالم تطور تقنيات الذكاء الاصطناعي، أصبح توليد الفيديو أحد المجالات التي تثير اهتمام الكثيرين. يعكف الباحثون على توسيع نطاق استخدام نماذج الانتشار (Diffusion Models) التي حققت نجاحات كبيرة في توليد الصور، إلي توليد الفيديو. ولكن ما تعاني منه معظم هذه النماذج هو الاعتماد على طبقات الانتباه (Attention Layers) لجذب الميزات الزمنية، وهو ما يؤدي إلى تكاليف حسابية مرتفعة تتزايد بشكل مطرد مع طول السلسلة الزمنية.

للتغلب على هذه العقبات، اقترح الباحثون استخدام نماذج فضاء الحالة (Structured State Spaces) كأدوات لاستخراج الميزات الزمنية. وقد حظيت هذه النماذج مؤخرًا باهتمام كبير، وذلك لقدرتها على استهلاك الذاكرة بشكل خطي مع طول السلسلة، مما يجعلها بديلاً واعداً لنماذج الانتباه التقليدية.

من خلال الدراسات، اتضح أن استخدام نماذج فضاء الحالة ثنائية الاتجاه (Bidirectional SSMs) يمكن أن يكون أكثر فعالية في معالجة الميزات الزمنية بشكل دقيق، كما هو الحال مع الميزات المكانية في توليد الصور. وأظهرت التجارب التي أجريت على مجموعة من بيانات الفيديو الطويلة، مثل مجموعة بيانات MineRL Navigate، أن نماذج فضاء الحالة تتطلب ذاكرة أقل مقارنة بنماذج الانتباه، بينما تظل قادرة على تحقيق نفس أداء جودة الفيديو المعدل (FVD).

تأتي هذه النتائج في وقت مهم يتم فيه استخدام نماذج مثل Mamba لإحداث تحول في عمليات توليد الفيديو. هل ستكون هذه التقنيات الجديدة هي مفتاح النجاح في مجال الفيديو؟

للمزيد من المعلومات والاطلاع على الأكواد المصدرية المستخدمة، يمكن زيارة الرابط: SSM-Meets-Video-Diffusion-Models