ثورة في الذكاء الاصطناعي: BEAM يُعيد تعريف كفاءة نماذج الخبراء المختلطة

عرض جديد لكفاءة عمل نماذج الأخطاء المختلطة مع تقديم BEAM، التقنية التي تحدث ثورة في اختيار الخبراء الديناميكي. تحقق من كيف يمكن لهذه الطريقة الجديدة تحسين سرعة الأداء بنسبة تصل إلى 2.5 ضعفًا.

تمثل بنية نموذج الخبراء المختلطين (Mixture-of-Experts - MoE) إحدى تلك الابتكارات المثيرة في عالم الذكاء الاصطناعي، حيث تسعى إلى تحسين فعالية نماذج اللغة الكبيرة (Large Language Models) من خلال تفعيل مجموعة فرعية فقط من الخبراء لكل رمز. لكن استخدام الاستراتيجية الثابتة للتوجيه (Top-K) في MoE قد يؤدي إلى حسابات زائدة وتأخير في الأداء.

وفي إطار السعي لحل تلك الإشكاليات، تم تقديم تقنية BEAM (Binary Expert Activation Masking) كطريقة جديدة تهدف إلى تعلم اختيار الخبراء بشكل ديناميكي باستخدام أقنعة ثنائية قابلة للتدريب. تعتمد BEAM على استخدام مقدر مباشر وخسارة تنظيمية مساعدة لتحفيز التنداف الديناميكي للخبراء عبر التدريب الشامل مع الحفاظ على كفاءة النموذج.

ولإيجاد تكامل سلس مع هيكل الاستدلال vLLM، تم تنفيذ نواة CUDA مخصصة تضمن تحسين السرعة والكفاءة. النتائج التجريبية تظهر أن تقنية BEAM تحتفظ بأكثر من 98% من أداء النموذج الأصلي، بينما تقلل من FLOPs لطبقات MoE بنسبة تصل إلى 85%. كما تحقق تقنية BEAM تسريعتين ملحوظتين؛ حيث تصل سرعة فك التشفير إلى 2.5 ضعفًا، ما يجعلها حلاً فعالًا ومناسبًا للاستخدام.

جاري تحميل التفاعلات...

ثورة في الذكاء الاصطناعي: BEAM يُعيد تعريف كفاءة نماذج الخبراء المختلطة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في توليد البيانات: كيف تعمل AcquisitionSynthesis على تحسين جودة النماذج!

نموذج مؤسساتي مركز على الهيكلية يجسد أساسيات هندسية ثورية في الذكاء الاصطناعي!

اكتشاف IntentGrasp: معيار شامل لفهم النوايا في الذكاء الاصطناعي!