عند النظر في تطور تقنيات الذكاء الاصطناعي، أصبحت نماذج الانتشار (Diffusion Models) الخيار الرائد لتوليد المحتوى عبر مجالات متعددة. ولكن، كان الاعتماد على تنفيذ العديد من الدورات التسلسلية يشكل عائقًا كبيرًا أمام الأداء في الوقت الفعلي. لذلك، عملت الأبحاث السابقة على تسريع هذه العمليات من خلال تقليل عدد خطوات العينة أو إعادة استخدام النتائج الوسيطة، لكنها فشلت في الاستفادة من الاختلافات بين المناطق المكانية داخل الصورة، نظرًا للقيود المفروضة على بنية شبكة U-Net التلافيفية.

هنا يأتي دور الدراسة الجديدة التي تستخدم نماذج التحويلات (Diffusion Transformers) بمرونتها في التعامل مع عدد متغير من الرموز. حيث تم تقديم استراتيجية جديدة تحمل اسم RAS (تجميع عشوائي قائم على المناطق)، والتي لا تتطلب تدريبًا مسبقًا.

تستغل هذه الاستراتيجية بأن النموذج يركز على المناطق ذات المعنى الدلالي خلال كل خطوة من خطوات العينة، وهذه المناطق تظل متصلة عبر الخطوات المتتالية. لذا، تقوم RAS بتحديث فقط المناطق التي هي في دائرة التركيز حاليًا، بينما يتم تحديث المناطق الأخرى باستخدام الضوضاء المخزنة من الخطوة السابقة.

قد تم تقييم RAS على نموذج Stable Diffusion 3 وLumina-Next-T2I، حيث حققت تسريعًا يصل إلى 2.36x و2.51x على التوالي، مع تقليل بسيط في جودة النتائج. وعلاوة على ذلك، كشفت دراسة تجريبية أن RAS تُظهر جودة مماثلة تحت التقييم البشري بينما تحقق تسريعًا بمقدار 1.6x.

بهذا، تعتبر هذه الدراسة خطوة مهمة نحو تحسين نماذج التحويلات، مما يفتح آفاقًا جديدة للتطبيقات في الوقت الحقيقي. هل أنتم متحمسون لرؤية كيف ستؤثر هذه الابتكارات على المستقبل؟ شاركونا آرائكم!