في عالم الذكاء الاصطناعي حيث تتزايد متطلبات تدريب الشبكات العصبية (Neural Networks) الكبيرة، تبرز تقنية جديدة تدعى "التوازي الفرعي" (Subnetwork Data Parallelism - SDP) كحل فعال لمواجهة التحديات المتعلقة بالذاكرة والكلفة.

تقوم تقنية التوازي الفرعي بتقسيم النموذج إلى وحدات فرعية منظمة، تتم تدريبها بشكل مستقل بين العاملين دون الحاجة لتبادل التنبيهات (Activations). هذا الأسلوب يُعزز من كفاءة التدريب، حيث يمكن للخوارزميات التعامل مع ذاكرة أقل دون التأثير على أداء النموذج.

تستند الأبحاث إلى نظامين متكاملين من القناع: القناع العكسي (Backward Masking) الذي تطبق فيه الصلابة فقط في خطوة الخلف، مما يحافظ على تدرجات غير متحيزة، والقناع الأمامي (Forward Masking) الذي يزيل أيضًا المعلمات أثناء المرور الأمامي (Forward Pass) لزيادة الكفاءة وتعزيز التنظيم.

استندت النتائج إلى تجارب تمت على مجموعة بيانات متنوعة تشمل 1 مليار نموذج LLaMA على FineWeb وResNet-18 على CIFAR، حيث أظهرت النتائج انخفاضًا في استهلاك الذاكرة لكل جهاز تتراوح نسبته بين 28% إلى 60%، مع الحفاظ على الأداء أو تحسينه وفق إعدادات معادلة FLOP.

تفتح هذه التطورات آفاقًا جديدة في مجال تدريب الشبكات العصبية، مما يشير إلى إمكانية تحقيق طفرات في كفاءة البنية التحتية للذكاء الاصطناعي وتقليل التكاليف المرتبطة به.

ما رأيكم في هذا التطور المذهل؟ هل تعتقدون أن هذه التقنية ستحدث فارقًا في مستقبل الذكاء الاصطناعي؟ شاركونا في التعليقات.