في عالم الذكاء الاصطناعي، يمثل تدريب الشبكات العصبونية تحدياً كبيراً، حيث تتطلب الطرق التقليدية تخزين تنشيطات في جميع الطبقات، مما يسبب اختناقات في الذاكرة ويقيد قدرة النموذج على التوسع. ولحل هذه المشكلة، تمثل DiffusionBlocks الإطار الجديد الذي يقدم حلاً مبتكراً.

تستفيد DiffusionBlocks من فكرة أن الاتصالات المتبقية (Residual Connections) تتناغم بشكل طبيعي مع التحديثات في نظام ديناميكي. من خلال إجراء تعديلات طفيفة على هذا النظام، يمكن تحويل هذه التحديثات إلى عملية إزالة الضوضاء (Denoising Process). وبذلك يمكن تدريب كل كتلة بشكل مستقل، مستفيدين من هدف مطابقة السكور (Score Matching)، مما يقلل الحاجة إلى الذاكرة بنسبة تتناسب مع عدد الكتل.

تجاربنا على مجموعة متنوعة من بنى النماذج مثل النماذج المبنية على التحويل (Transformer)، والنماذج التكرارية (Recurrent)، أظهرت أن تدريب DiffusionBlocks يتماشى مع أداء التدريب من النهاية إلى النهاية، بينما يسمح بالتدريب القابل للتوسع على مهام عملية تتجاوز التصنيف الصغير.

تمثل DiffusionBlocks نهجاً ذا أساس نظري قوي، يمكنه التكيف مع المهام الحديثة في التوليد (Generative Tasks) عبر مجموعة متنوعة من البنى، مما يفتح آفاق جديدة لإمكانية تحسين أداء النماذج العصبية.

يمكن الاطلاع على الشيفرة البرمجية الخاصة بالإطار الجديد على رابط الشيفرة.