في عصر الذكاء الاصطناعي، تعتبر تقنيات ضغط النماذج مكوناً أساسياً لتحقيق التوازن بين الأداء والكفاءة. ومن بين أحدث الأبحاث، تبرز دراسة جديدة تركز على نماذج Mixture-of-Experts (MoE) وكيفية تطبيق تقنيات التقليم (Pruning) واستخلاص المعرفة (Knowledge Distillation) لتحقيق نتائج مثلى.

تسعى هذه الدراسة إلى توضيح كيفية تطبيق ضغط هذه النماذج خلال فترة التدريب المسبق، مع التركيز على ثلاث مسائل رئيسية. أولاً، تساءلت الدراسة عما إذا كانت تقنيات التقليم توفر بداية أفضل من التدريب من الصفر. وقد أظهرت النتائج أن تقليم نموذج MoE المدرب مسبقًا يتفوق باستمرار على بناء النموذج المستهدف من الصفر مع نفس ميزانية التدريب.

ثانيًا، تطرقت الدراسة إلى تأثير خيارات ضغط الخبراء على أداء النموذج النهائي بعد استمرار التدريب، لتظهر أن طرق ضغط الخبراء المتنوعة تتقارب نحو أداء نهائي مشابه بعد التدريب المستمر على نطاق واسع. وهذا يقودنا إلى استراتيجية دمج الخبراء الجزئية التي تم تقديمها، والتي تعزز الأداء في معظم المعايير.

أخيرًا، أشارت النتائج إلى أن الجمع بين استخلاص المعرفة مع وظيفة خسارة نمذجة اللغة يمكن أن يحقق نتائج تفوق استخلاص المعرفة بمفرده، خاصة في المهام التي تتطلب معرفة مكثفة. كما تم اقتراح طريقة جديدة لاستخلاص المعرفة المتعددة الرموز (Multi-Token Prediction) والتي تُحقق فوائد متسقة.

في إطار هذه الجهود، تم ضغط نموذج Qwen3-Next-80A3B إلى نموذج 23A2B مع الحفاظ على أداء تنافسي. تسلط هذه النتائج الضوء على الإرشادات العملية بشأن ضغط نماذج MoE بكفاءة على نطاق واسع، مما يعد بخطوات هامة نحو تحسين أداء الذكاء الاصطناعي في المستقبل.