تمثل بنية نموذج الخبراء المختلطين (Mixture-of-Experts - MoE) إحدى تلك الابتكارات المثيرة في عالم الذكاء الاصطناعي، حيث تسعى إلى تحسين فعالية نماذج اللغة الكبيرة (Large Language Models) من خلال تفعيل مجموعة فرعية فقط من الخبراء لكل رمز. لكن استخدام الاستراتيجية الثابتة للتوجيه (Top-K) في MoE قد يؤدي إلى حسابات زائدة وتأخير في الأداء.

وفي إطار السعي لحل تلك الإشكاليات، تم تقديم تقنية BEAM (Binary Expert Activation Masking) كطريقة جديدة تهدف إلى تعلم اختيار الخبراء بشكل ديناميكي باستخدام أقنعة ثنائية قابلة للتدريب. تعتمد BEAM على استخدام مقدر مباشر وخسارة تنظيمية مساعدة لتحفيز التنداف الديناميكي للخبراء عبر التدريب الشامل مع الحفاظ على كفاءة النموذج.

ولإيجاد تكامل سلس مع هيكل الاستدلال vLLM، تم تنفيذ نواة CUDA مخصصة تضمن تحسين السرعة والكفاءة. النتائج التجريبية تظهر أن تقنية BEAM تحتفظ بأكثر من 98% من أداء النموذج الأصلي، بينما تقلل من FLOPs لطبقات MoE بنسبة تصل إلى 85%. كما تحقق تقنية BEAM تسريعتين ملحوظتين؛ حيث تصل سرعة فك التشفير إلى 2.5 ضعفًا، ما يجعلها حلاً فعالًا ومناسبًا للاستخدام.