في عالم يتطور بسرعة في مجال الذكاء الاصطناعي، تُعتبر نماذج اللغة الكبيرة (Large Language Models) محورية للعديد من التطبيقات الصناعية. تعمل هذه النماذج بشكل أساس على مبدأ مجموعة الخبراء (Mixture-of-Experts) التي تُتيح تحسين الأداء من خلال إضافة خبراء متخصصين. ولكن، هذه النماذج تواجه تحديات عديدة، منها الحجم الثابت للخبراء، مما يؤدي إلى إهدار الموارد.

لذلك، ظهرت فكرة مجموعة الخبراء المتنوعة (Mixture of Heterogeneous Grouped Experts - MoHGE) كحل مبتكر. تقوم هذه التقنية على آلية توجيه من مستويين، مما يسمح بتكوين تركيبات مرنة من الخبراء، تتكيف مع تعقيد المهمات المطروحة.

إحدى الابتكارات المهمة في هذا السياق هي "خسارة مساعدة جماعية" (Group-Wise Auxiliary Loss) التي تعمل على توجيه الرموز إلى الخبراء الأكثر كفاءة في استخدام الموارد، بناءً على صعوبة المهمة.

كما تتضمن MoHGE استراتيجية جديدة لتوزيع الحمل على وحدات معالجة الرسوميات (GPU) بشكل متوازن، مما يساعد في الحفاظ على أداء جيد واستغلال أمثل للمكونات.

المراجعات التجريبية أظهرت أن MoHGE لا تقتصر على الأداء المكافئ لنماذج الخبراء التقليدية، بل تحقق فائدة إضافية تتمثل في تقليل العدد الإجمالي للمعاملات بنسبة قريبة من 20%، مع الحفاظ على توزيع متوازن للاستخدام.

تأسست MoHGE كنموذج قادر على إعادة تشكيل كيف تُستخدم نماذج الذكاء الاصطناعي في الواقع، مما يتيح تحسين التكاليف والنفقات في التطبيقات اليومية.