تعد نماذج Mixture-of-Experts (MoE) واحدة من أبرز الابتكارات في عالم الذكاء الاصطناعي، حيث يمكنها تحسين كفاءة نماذج اللغة من خلال تفعيل خبراء مختارين بشكل أقل، مما يؤدي إلى تقليل تكلفة الحساب. لكن الطريقة التقليدية لم تكن مثالية حيث تعتمد العديد من الأساليب الديناميكية على التدريب المسبق أو تكييفها لتناسب مهام محددة. ومع ذلك، فإن الدراسة الحديثة التي نشرت تحت عنوان "Zero-Expert Self-Distillation Adaptation (ZEDA)" تقدم حلاً مبتكرًا.

تستهدف تقنية ZEDA تحويل نماذج MoE الثابتة التي تم تدريبها مسبقًا إلى نماذج ديناميكية فعالة بتكاليف منخفضة. تعمل هذه التقنية من خلال إضافة خبراء بدون معلمات في كل طبقة من طبقات MoE، مما يسهل عملية تحويل النموذج. وتقوم بتطبيق نوعين من التعلم الذاتي لتثبيت هذا التحول، حيث يتم استخدام النموذج الأصلي كنموذج معلم مجمّد.

أظهرت نتائج اختبارات فعالية ZEDA على نماذج مثل Qwen3-30B-A3B وGLM-4.7-Flash عبر 11 معياراً أن هذه التقنية تمكنت من تقليل أكثر من 50% من FLOPs المستخدمة من قبل الخبراء مع الحفاظ على دقة مقبولة. كما أن ZEDA تقدم تحسيناً كبيراً في سرعة الاستدلال، حيث تصل إلى حوالي 1.20 مرة سرعة استدلال محسّنة.

الشغف بالتكنولوجيا الحديثة يتطلب منا دوماً البحث عن سبل لتحسين الأداء وتقليل التكلفة. لذا، تشكل تقنية ZEDA خطوة واعدة نحو مستقبل أكثر كفاءة في استخدام الذكاء الاصطناعي.