في عالم الذكاء الاصطناعي المتسارع، أصبحت نماذج اللغات الضخمة (Large Language Models) التي تستخدم أنظمة كل من الخبراء المتعددة (Mixture-of-Experts MoE) في صدارة التطورات التكنولوجية. تمكن هذه النماذج من زيادة سعة النموذج دون تكاليف عالية لكل توكن، مما يؤدي إلى خروج مخرجات ذات جودة أعلى وبكلفة تشغيل أقل.

ومع ذلك، يواجه استخدام أنظمة MoE في البيئات الكبيرة تحديات معينة، منها عدم التوازن في تحميل الخبراء وعدم كفاءة توجيه التوكنات، مما يزيد من عبء التواصل بين العقد. يتعمق باحثو الذكاء الاصطناعي في دراسة هذه التحديات عن طريق تحليل نماذج MoE الرائدة مثل Llama 4 Maverick، DeepSeek V3-671B، وQwen3-230B-A22B. وقد جمعوا أكثر من 100 ألف تتبع فعلي لتفعيل الخبراء.

من خلال دراسة نمط تفعيل الخبراء، كشف الباحثون عن خصائص دائمة تتواجد عبر جميع النماذج المتطورة. فمثلاً، لاحظوا عدم التوازن في تحميل الخبراء، وتفعيل الخبراء وفق نطاقات محددة تتعلق بنوع المهام—كالأكواد والرياضيات والدردشات. كما تبين وجود علاقة قوية بين تفعيل الخبراء أثناء مرحلة الإعداد ومرحلة فك الترميز.

استنادًا إلى هذه النتائج، قدم الباحثون استراتيجيات جديدة لضبط مجموعات التعديلات الصغيرة وترتيب مكان تواجد الخبراء، بهدف تحسين قدرة التوكنات على الوصول إلى خبرائها المقصودين، مما يقلل من عمليات التواصل بين العقد بنسبة تصل إلى 20%. هذه التحسينات تساهم في تقليل زمن استجابة فك الترميز النفسية، وتعزيز كفاءة الاستخدام للوحدات المعجلة.

في خضم هذا التطور الذي يسهم في تحسين أداء الذكاء الاصطناعي، كيف ترى مستقبل أنظمة MoE وتأثيرها على التكنولوجيا؟ شاركونا أفكاركم!