في عالم الذكاء الاصطناعي، تُعتبر نماذج توليد الصور (Image Generative Models) أدوات حيوية تسعى لعينة نقاط البيانات من الهيكل الأساسي للمنطقة المسماة (data manifold). ولكن التحدي يكمن في الحاجة لتعلم وتفكيك مساحة منخفضة الأبعاد ومعقدة للمعلمات. في هذا السياق، تم تقديم نموذج جديد يُعرف باسم Data Manifold-aware Image diffusion moDel (MIND)، الذي يتيح معالجة الجيومترية للبيانات بأسلوب مبتكر.

يعتمد نموذج MIND على دمج طريقة تجزئة المربعات (discrete patch tokenization) في دالة التقييم (score function) لنموذج انتشار مستمر. بفضل هذا الاقتراب، يتمكن النموذج من الاستفادة من القدرات الهيكلية لتجزئات البيانات بينما يقوم أيضًا بتوفير مرونة في عملية التوليد التي تميز نموذج الانتشار المستمر.

لتحسين قدرة النموذج على التعلم، تم تمكين التدريب القابل للاشتقاق من الطرف إلى الطرف (end-to-end differentiable training) عبر آلية جديدة تُعرف باسم soft top-$k$ aggregation. كما تم استخدام طبقات دمج الميزات (feature embedding layers) ذات الفرعين لمعالجة الانحياز الطيفي (spectral bias) الذي تعاني منه النماذج التقليدية.

أما في مرحلة الاستدلال، فقد تم تصميم خطة عينة انتقال متعددة المراحل (multi-stage transition sampling scheme) التي تعدل بشكل ديناميكي أسلوب العينة بناءً على الزمن.

أثبتت التجارب المكثفة على مجموعة بيانات ImageNet 256×256 فعالية نموذج MIND، حيث حقق النموذج الأساسي بعد 80 دورة تدريبية نتائج مذهلة. حيث سجل FID (Fréchet Inception Distance) بمعدل 22.73 بدون توجيه، مما يقارب النصف مقارنةً بالمعيار المنخفض DiT-B/2. بالإضافة إلى ذلك، يتم تقليل FID بمقدار 15.95 و 9.06 بالمقارنة مع النماذج السابقة DiT و SiT على التوالي.

لدى توليد الصور مع التوجيه، سجل نموذج MIND-B الذي يحتوي على 130 مليون معلم نتائج ممتازة بمعدل FID بلغ 2.06، متفوقًا على نموذج LlamaGen-3B الذي يحتوي على 3.1 مليار معلم. والنموذج الأحدث MIND-XL الذي يحتوي على 715 مليون معلم حقق FID بمعدل 1.95.

تقديم نموذج MIND يمثل بداية جديدة في مجال توليد الصور المعتمدة على الانتشار، مما يمهد الطريق لمزيد من الأبحاث والابتكارات في هذا المجتمع. الكود سيكون متاحًا للجميع لمزيد من الاستفادة والتطوير.