في عالم الذكاء الاصطناعي، تشهد نماذج مزيج الخبراء (Mixture of Experts - MoE) شهرة متزايدة بفضل كفاءتها الحاسوبية من خلال تنشيط خبراء محدود. لكن ما يكمن وراء هذا النجاح هو تحديات تدريبية معقدة مثل انهيار الخبراء واختلال الأحمال. تمامًا هنا، يبرز مفهوم تنشيط المعلمين الداخليين كأبعاد تعزز من فعالية هذه النماذج.
تشير الأبحاث الأخيرة إلى أن العديد من نماذج MoE المدربة مسبقًا تحتوي على كميات هائلة من تنشيط المعلمين الداخليين المتوفر بسهولة، دون الحاجة إلى أي تعديلات في دوال التنشيط أو في معلمات النموذج. في الواقع، يمكن تحقيق ما يصل إلى 90% من التوفير في كل خبير مع الحفاظ على دقة النموذج.
تجربة مثيرة طُبقت على ثمانية نماذج MoE جاهزة للاستخدام، تميزت بعدد معلمات يتراوح بين 1 مليار إلى 400 مليار معلمة. هذا البحث قام بتوسيع استخدام خط أنابيب تنفيذ MoE للنماذج المعروفة مثل vLLM للاستفادة من تنشيط المعلمين الداخليين عن طريق تخطي عمليات الحساب للنيورونات غير النشطة.
نتائج هذا العمل تبشر بزيادة سرعة تنفيذ طبقات MoE بمقدار 2.5 مرة، وسرعة إنهاء العملية بمقدار 1.2 مرة مقارنة بالمعيار الأصلي لـ vLLM. هذه التطورات تُظهر كيف يمكن للتقنيات الجديدة أن تساهم في دفع حدود كفاءة النماذج وتحسين تجربتها بشكل ملحوظ.
فهل أنتم مستعدون لاستكشاف عالم جديد من الكفاءة باستخدام تنشيط المعلمين الداخليين؟ شاركونا آرائكم وتجاربكم في التعليقات.
اكتشاف فعالية تنشيط المعلمين الداخليين: كيف نحقق كفاءة تنفيذ نماذج مزيج الخبراء؟
تقدم دراسة جديدة نظرة عميقة على كيفية تحسين كفاءة نماذج مزيج الخبراء (Mixture of Experts) من خلال استغلال تنشيط المعلمين الداخليين. تتيح هذه الطريقة توفير ما يصل إلى 90% من الموارد دون التأثير على الدقة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
