تعد [نماذج](/tag/نماذج) Mixture-of-Experts ([MoE](/tag/moe)) واحدة من أبرز [الابتكارات](/tag/الابتكارات) في عالم الذكاء الاصطناعي، حيث يمكنها [تحسين](/tag/تحسين) [كفاءة](/tag/كفاءة) [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) من خلال تفعيل [خبراء](/tag/خبراء) مختارين بشكل أقل، مما يؤدي إلى تقليل تكلفة [الحساب](/tag/الحساب). لكن الطريقة التقليدية لم تكن مثالية حيث تعتمد العديد من الأساليب الديناميكية على [التدريب المسبق](/tag/[التدريب](/tag/التدريب)-المسبق) أو تكييفها لتناسب مهام محددة. ومع ذلك، فإن [الدراسة](/tag/الدراسة) الحديثة التي نشرت تحت عنوان "[Zero-Expert](/tag/zero-expert) [Self-Distillation](/tag/self-distillation) Adaptation ([ZEDA](/tag/zeda))" تقدم حلاً مبتكرًا.

تستهدف [تقنية](/tag/تقنية) [ZEDA](/tag/zeda) [تحويل](/tag/تحويل) [نماذج MoE](/tag/[نماذج](/tag/نماذج)-moe) الثابتة التي تم تدريبها مسبقًا إلى [نماذج ديناميكية](/tag/[نماذج](/tag/نماذج)-[ديناميكية](/tag/ديناميكية)) فعالة بتكاليف منخفضة. تعمل هذه [التقنية](/tag/التقنية) من خلال إضافة [خبراء](/tag/خبراء) بدون معلمات في كل طبقة من طبقات MoE، مما يسهل عملية [تحويل](/tag/تحويل) النموذج. وتقوم بتطبيق نوعين من [التعلم الذاتي](/tag/[التعلم](/tag/التعلم)-الذاتي) لتثبيت هذا التحول، حيث يتم استخدام النموذج الأصلي كنموذج معلم مجمّد.

أظهرت نتائج [اختبارات](/tag/اختبارات) فعالية [ZEDA](/tag/zeda) على [نماذج](/tag/نماذج) مثل Qwen3-30B-A3B وGLM-4.7-Flash [عبر](/tag/عبر) 11 معياراً أن هذه [التقنية](/tag/التقنية) تمكنت من تقليل أكثر من 50% من FLOPs المستخدمة من قبل الخبراء مع الحفاظ على [دقة](/tag/دقة) مقبولة. كما أن [ZEDA](/tag/zeda) تقدم تحسيناً كبيراً في [سرعة](/tag/سرعة) الاستدلال، حيث تصل إلى حوالي 1.20 مرة [سرعة](/tag/سرعة) [استدلال](/tag/استدلال) محسّنة.

الشغف بالتكنولوجيا الحديثة يتطلب منا دوماً [البحث](/tag/البحث) عن سبل لتحسين [الأداء](/tag/الأداء) وتقليل التكلفة. لذا، تشكل [تقنية](/tag/تقنية) [ZEDA](/tag/zeda) خطوة واعدة [نحو](/tag/نحو) [مستقبل](/tag/مستقبل) أكثر [كفاءة](/tag/كفاءة) في استخدام [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي).