في عالم الذكاء الاصطناعي، تعتبر نماذج Mixture-of-Experts (MoE) من أبرز النهج المتبعة بفضل قدرتها على فصل عدد المعاملات عن تكاليف الحساب في نماذج اللغات الكبيرة (Large Language Models). ولكن، لا تزال تحديات تعزيز أداء MoE قائمة.
أشارت الأبحاث السابقة إلى أن وجود خبراء (Experts) بدقة عالية يزيد من تنوع توليفات الخبراء ويساهم في تحسين مرونة النموذج. ومع ذلك، هذه الفائدة تأتي بتكلفة كبيرة، حيث أن نظام توجيه الخبراء يفرض أعباء إضافية تؤدي إلى اختناق في الأداء عند التطبيق على نطاق واسع.
في ورقتنا البحثية الجديدة، نقدم نهجًا مكملاً لتوسيع نطاق العمل، يتمثل في كيفية تجميع مخرجات الخبراء. من خلال استبدال طريقة التجميع القياسية المعتمدة على الجمع الموزون (Weighted Summation) بتجميع هيكلي (Structural Aggregation)، نتمكن من توسيع مساحة توليفات الخبراء دون الحاجة لتغيير الخبراء أو نظام التوجيه، مما يمكّن من إجراء استنتاجات متعددة الخطوات ضمن طبقة MoE واحدة.
نقدم أيضًا نموذج DAG-MoE، وهو إطار MoE نقصي (Sparse MoE) يستخدم وحدة خفيفة لتعلّم الهيكل الأمثل للتجميع بين الخبراء المختارين. أظهرت التجارب الواسعة التي جرت في سياقات نمذجة اللغة القياسية أن DAG-MoE يعزز الأداء بشكل مستمر في كل من التدريب المسبق والتدريب الدقيق، متفوقًا على المعايير التقليدية لنماذج MoE.
إذا كنت متحمسًا لاستكشاف كيف يمكن لهذا النموذج تغيير قواعد اللعبة في الذكاء الاصطناعي، عليك بمتابعة آخر التطورات في هذا المجال!
DAG-MoE: ثورة جديدة في نماذج Mixture-of-Experts لتحسين الأداء
تقدم DAG-MoE حلاً مبتكرًا لتحديات الأداء في نماذج Mixture-of-Experts عبر تحسين طرق تجميع البيانات. هذا التطور يعد نقطة تحول في تعزيز الأداء وتقليل التعقيد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
