في مجال تدريب نماذج الذكاء الاصطناعي الكبيرة، تعد نماذج Sparse Mixture-of-Experts (s-MoE) إحدى التقنيات الرائدة التي تسمح بتوسيع النطاق من خلال تفعيل مجموعة محدودة من الخبراء فقط لكل رمز. وبينما توفر هذه التقنية المرونة، إلا أنها تواجه تحديات تشغيلية، من بينها توازن الأحمال، حيث يتعين توجيه الرموز بذكاء لتقليل عدد الخبراء غير النشطين، وهو ما يعد أمرًا بالغ الأهمية لاستخدام وحدات المعالجة الرسومية (GPUs) باهظة الثمن بكفاءة وتدريب معمارية النموذج بشكل شامل.

تقدم الدراسة الجديدة التي قدمها فريق DeepSeek بقيادة Wang et al. (2024) إطارًا نظريًا مبتكرًا لتحليل عملية توازن الأحمال الخالية من الخسائر (Auxiliary-Loss-Free Load Balancing - ALF-LB)، حيث يتم تناولها كطريقة مزدوجة أولية مع تحديث سريع في كل فترة تدريب لحل مشكلة التخصيص.

يتمثل أحد الابتكارات الرئيسية في إطار العمل هذا في تحويل إعدادات التدريب التقليدية إلى بنية غير خطية تسمح بتحليل الخصائص الهيكلية بطريقة فعالة. تتضمن هذه الخصائص: (i) شرط تحسين أحادي الاتجاه لهدف Lagrangian، (ii) قاعدة تفضيل لنقل الرموز من الخبراء المزدحمين إلى الخبراء الأقل ازدحامًا، (iii) ضمان تقريب التوازن.

مع الأخذ بعين الاعتبار الطبيعة الديناميكية والعشوائية لتدريب الذكاء الاصطناعي، تم دمج هذه الخصائص في صياغة تحسين عامة عبر الإنترنت، مما أدى إلى تقديم خصائص قوية للتقاطع تعزز من النتائج المتوقعة. وبالإضافة إلى ذلك، تم تنفيذ تجارب حقيقية على نماذج DeepSeekMoE مع 1 مليار معلمة لتعزيز النتائج النظرية وتأكيد فعاليتها.

تشير هذه النتائج إلى أهمية إطار ALF-LB كوسيلة فعالة لتحسين توازن الأحمال في نماذج s-MoE في الوقت الذي يساهم فيه في تدعيم الكفاءة أثناء تدريب نماذج الذكاء الاصطناعي الضخمة.