تعتبر نماذج التحليل التلقائي للفيديو (Autoregressive Video Diffusion) واحدة من الإنجازات الرائدة في مجال الذكاء الاصطناعي، حيث تتيح عملية إنشاء فيديوهات معقدة بشكل متسلسل. ومع ذلك، تواجه هذه النماذج تحديات كبيرة في وقت الاستدلال، ناتجة عن زيادة حجم ذاكرة التخزين المؤقت (KV Cache) مما يؤدي إلى بطء الأداء وزيادة استهلاك الذاكرة على وحدات المعالجة الرسومية (GPU).

في دراستنا الأخيرة، قمنا بتحديد ثلاث مصادر رئيسية للمشاكل المرتبطة بالذاكرة والسرعة. من بينها، وجود مفاتيح مكررة بشكل قريب عبر الإطارات المختلفة، بالإضافة إلى تعديلات بطيئة في المفاتيح والمستفسرات والتي تؤدي لعدم كفاءة في عمليات التركيز. بالإضافة إلى ذلك، يؤدي التركيز المتقاطع على توجيهات طويلة إلى فقدان الفعالية، حيث لا تتعلق سوى عدد قليل من الرموز بالإطار المحدد.

للتغلب على هذه التحديات، قدمنا إطار تركيز موحد يُعرف بـ FAST-AR، الذي يعتمد على مكونات قوية مثل TempCache لضغط الذاكرة باستخدام أساليب زمنية، وAnnCA لتسريع التركيز المتقاطع عبر اختيار الرموز المناسبة باستخدام تقريب الأقرب جيران (ANN)، وAnnSA لتنويع التركيز الذاتي من خلال تقييد كل استفسار على المفاتيح المتطابقة.

تظهر التجارب التي أجريناها أن هذه الاستراتيجيات تُسرع الأداء من 5 إلى 10 مرات، بينما تحافظ على جودة بصرية شبه مماثلة. والأهم من ذلك، أن هذه التقنيات تحافظ على تدفق ثابت واستخدام ذاكرة GPU قريبة من الثبات خلال عمليات الطرح الطويلة، مما يعالج القضايا التي تعاني منها الوسائل السابقة.

بفضل هذه التطورات الرائعة، نحن على أعتاب عصر جديد في صناعة الفيديو والتطبيقات التفاعلية. فما رأيكم في هذه التقنيات المتقدمة؟ شاركونا في التعليقات!