ما هو موضوع مقال "DAG-MoE: ثورة جديدة في نماذج Mixture-of-Experts لتحسين الأداء"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "DAG-MoE: ثورة جديدة في نماذج Mixture-of-Experts لتحسين الأداء" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

DAG-MoE: ثورة جديدة في نماذج Mixture-of-Experts لتحسين الأداء

في عالم الذكاء الاصطناعي، تعتبر نماذج Mixture-of-Experts (MoE) من أبرز النهج المتبعة بفضل قدرتها على فصل عدد المعاملات عن تكاليف الحساب في نماذج اللغات الكبيرة (Large Language Models). ولكن، لا تزال تحديات تعزيز أداء MoE قائمة.

أشارت الأبحاث السابقة إلى أن وجود خبراء (Experts) بدقة عالية يزيد من تنوع توليفات الخبراء ويساهم في تحسين مرونة النموذج. ومع ذلك، هذه الفائدة تأتي بتكلفة كبيرة، حيث أن نظام توجيه الخبراء يفرض أعباء إضافية تؤدي إلى اختناق في الأداء عند التطبيق على نطاق واسع.

في ورقتنا البحثية الجديدة، نقدم نهجًا مكملاً لتوسيع نطاق العمل، يتمثل في كيفية تجميع مخرجات الخبراء. من خلال استبدال طريقة التجميع القياسية المعتمدة على الجمع الموزون (Weighted Summation) بتجميع هيكلي (Structural Aggregation)، نتمكن من توسيع مساحة توليفات الخبراء دون الحاجة لتغيير الخبراء أو نظام التوجيه، مما يمكّن من إجراء استنتاجات متعددة الخطوات ضمن طبقة MoE واحدة.

نقدم أيضًا نموذج DAG-MoE، وهو إطار MoE نقصي (Sparse MoE) يستخدم وحدة خفيفة لتعلّم الهيكل الأمثل للتجميع بين الخبراء المختارين. أظهرت التجارب الواسعة التي جرت في سياقات نمذجة اللغة القياسية أن DAG-MoE يعزز الأداء بشكل مستمر في كل من التدريب المسبق والتدريب الدقيق، متفوقًا على المعايير التقليدية لنماذج MoE.

إذا كنت متحمسًا لاستكشاف كيف يمكن لهذا النموذج تغيير قواعد اللعبة في الذكاء الاصطناعي، عليك بمتابعة آخر التطورات في هذا المجال!

DAG-MoE: ثورة جديدة في نماذج Mixture-of-Experts لتحسين الأداء

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

من نماذج اللغات الضخمة إلى الهلوسات: دليلك الشامل لأهم مصطلحات الذكاء الاصطناعي!

ثورة جديدة في الذكاء الاصطناعي: Salesforce تطلق Slackbot المتطور لمنافسة Microsoft وGoogle في عالم الأعمال

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!