تجديد الذكاء الاصطناعي: كيف تُعيد خوارزمية Mixture-of-Experts تشكيل مستقبل نماذج اللغة

في عالم الذكاء الاصطناعي، أصبحت نماذج Mixture-of-Experts (MoE) العمود الفقري لتوسيع نطاق نماذج اللغة الضخمة. تقوم هذه النماذج بفصل العدد الكلي للمعلمات عن العمليات الحاسوبية لكل رمز من خلال توجيه الخبراء النادر. ومع ذلك، فإن تدريب نماذج MoE الكبيرة يمكن أن يكون مكلفاً جداً بسبب متطلبات الذاكرة والتواصل بين الأجهزة التي تتزايد مع زيادة عدد المعلمات.

هنا تظهر تقنية تجديد الخبراء (Expert Upcycling) كحل مبتكر. من خلال هذه الطريقة، يمكن توسيع قدرة نموذج MoE تدريجياً عن طريق زيادة عدد الخبراء أثناء عملية إعادة التدريب المستمرة. باستخدام نموذج معتمد يتكون من E خبير، يتم إنشاء نموذج جديد mE خبير من خلال النسخ الإضافي للخبراء وتوسيع جهاز التوجيه، مما يضمن الحفاظ على تكلفة الاستدلال لكل رمز.

تعتبر عملية النسخ الإضافي بمثابة بداية دافئة، حيث يرث النموذج الجديد التمثيلات المتعلمة من نقطة التفتيش السابقة، مما يتيح له الانطلاق من خسارة أقل بكثير مقارنة بالت初始化 العشوائي. بعد ذلك، تعمل عملية إعادة التدريب على كسر التناظر بين الخبراء المكررين لتوجيه التخصص.

بفضل إطار عمل نظري واضح، تمكن الباحثون من تحديد الفجوة في جودة النموذج إلى عنصرين: قدرة وقدرة التهيئة. كما طرحت طريقة جديدة تعتمد على اختيار الخبراء استنادًا إلى أهمية الدرجات، مما يعزز عملية النسخ الإضافي ويزيد من فعالية التدريب.

في تجارب ذات عدد معلمات يتراوح بين 7 و13 مليار، أثبت النموذج الذي تم تجديده أنه يعادل النماذج الثابتة في تقليل الخسارة، بينما حقق توفيراً بنسبة 32% في ساعات استخدام وحدة معالجة الرسوميات (GPU). هذه التطورات تفتح الأبواب لتطبيق فعّال لتجديد الخبراء كبديل موثوق وفعّال من حيث التكلفة.

تجديد الذكاء الاصطناعي: كيف تُعيد خوارزمية Mixture-of-Experts تشكيل مستقبل نماذج اللغة

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

عوامل نجاح وكالات نماذج اللغة المعتمدة على البلوكتشين: تجربة DX Terminal Pro التي غيرت القواعد!

تطوير نماذج شخصية متعددة قائمة على سلوكيات المستخدمين بدقة وثقة رائدة!

استخدم نقاط المركزية للانتروبيا كمكافآت داخلية لتحسين أداء نماذج الذكاء الاصطناعي!