في سعيها المستمر لتحقيق كفاءة أعلى في نماذج اللغات الضخمة (Large Language Models)، تتناول الأبحاث الجديدة تحسينات مهمة في بنية نماذج الخبراء (Mixture of Experts - MoE). تعتبر MoE من الأساليب الفعالة في توسيع نطاق نماذج الذكاء الاصطناعي من خلال استغلال تنشيط الخبراء المحدود، مما يساعد في تحقيق توازن بين الأداء والكفاءة.

ومع ذلك، تكمن التحديات في ما يعرف بتأثير المتأخرين (Straggler Effect)، حيث يؤدي عدم توازن توزيع المهام بين الخبراء إلى تأخيرات كبيرة في الأداء. يحدث هذا عندما ينتهي خبراء غير محملين بمهامهم مبكرًا، ولكن يتعين عليهم الانتظار حتى يكمل الخبراء المحملون بالأعباء الزائدة مهامهم، مما ينتج عنه تأخيرات عالمية في زمن الاستجابة.

ولتفادي هذه الفجوة، تم تقديم مفهوم "تخفيض الطاقة الواعي (Capacity-Aware Token Drop)", الذي يفرض حدود سعة الخبراء عبر تجاهل الرموز الزائدة في الخبراء المحملين، مما يقلل من عدم توازن الأحمال مع تأثير طفيف على الأداء - مثل تحقيق زيادة تصل إلى 30% في السرعة مع انخفاض بنسبة 0.9% في الأداء.

بالإضافة إلى ذلك، تم إدخال طريقة "تخفيض موسع واعٍ بالسعة (Capacity-Aware Expanded Drop)", التي تسمح بإدراج خبراء محليين إضافيين قبل تطبيق قيود السعة الصارمة، مما يحسن من توزيع الأحمال ويعزز من الاستفادة من الخبراء الأقل استخدامًا.

أظهرت التجارب الواسعة على كل من نماذج MoE اللغوية ومتعددة الوسائط فعالية هذا النهج، حيث حققت نتائج مثيرة تتضمن تحسينات ملحوظة في استغلال الخبراء، وأداء النموذج، وكفاءة الاستدلال. على سبيل المثال، أدى تطبيق التخفيض الموسع على نموذج Mixtral-8×7B-Instruct إلى تحسن متوسط في الأداء بنسبة 0.2% وزيادة في سرعة الاستدلال بمعدل 1.85 مرة.

تستمر الأبحاث في دفع حدود ما يمكن تحقيقه في مجالات الذكاء الاصطناعي، لذلك لا تفوتوا فرصة متابعة هذه التطورات.
ما رأيكم في هذه الابتكارات في نماذج الخبراء؟ تشاركونا آراءكم في التعليقات!