تسريع نماذج الانتشار أصبح ضرورة ملحة في عالم الذكاء الاصطناعي، حيث تظهر نماذج مثل Diffusion Transformers (DiTs) تفوقًا ملحوظًا في مهام إنشاء الصور والفيديوهات. ولكن التحديات الحسابية الكبيرة التي تواجه هذه النماذج تعيق نشرها بشكل عملي. هنا يأتي دور نموذج LESA، كنموذج مبتكر يقدم حلاً ذكيًا لمشكلة التسارع دون المساس بجودة النتائج.

تتميز تقنية LESA بإطار عمل يعتمد على التنبؤ القابل للتعلم (Learnable Stage-Aware Predictor Framework)، والذي يستفيد من تدريب ذو مرحلتين لتخطي القيود التقليدية. يستخدم النموذج شبكة Kolmogorov-Arnold Network (KAN) لتعلم التوزيعات الزمنية من البيانات بدقة، مما يساعد في التنبؤ بالميزات وفقاً لمستويات الضوضاء المتباينة.

على وجه الخصوص، يعتمد نموذج LESA على بنية متعددة المراحل ومتعددة الخبراء، حيث يتم تخصيص متنبئين متخصصين لمراحل الضوضاء المختلفة، مما يجعل التنبؤ بالميزات أكثر دقة وموثوقية. التجارب الموسعة تظهر أن تقنية LESA تحقق تسارعًا مذهلاً، حيث تم تحسين السرعة بمعدل يصل إلى 5.00x على منصة FLUX.1-dev مع انخفاض طفيف في الجودة بلغ 1.0%. كما سجلت أداءً رائعًا بمعدل تسريع 6.25x على نموذج Qwen-Image مع تحسين للجودة بنسبة 20.2% مقارنة بالنموذج السابق سابِق الذكر (TaylorSeer).

بالإضافة إلى ذلك، حقق نموذج LESA تسارعًا بمعدل 5.00x على منصة HunyuanVideo مع تحسين قدره 24.7% في مستوى PSNR مقارنة بـ TaylorSeer، مما يؤكد مكانته المتقدمة في أداء نماذج تحويل النص إلى صورة والفيديو. مع الإتاحة العامة للشيفرة المصدرية عبر GitHub، يُعتبر LESA خطوة نحو الأمام في عالم تطوير النماذج الذكية. كيف تنظرون إلى هذا الابتكار في تسريع الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات.