في عالم الذكاء الاصطناعي، أصبحت نماذج Mixture-of-Experts (MoE) العمود الفقري لتوسيع نطاق نماذج اللغة الضخمة. تقوم هذه النماذج بفصل العدد الكلي للمعلمات عن العمليات الحاسوبية لكل رمز من خلال توجيه الخبراء النادر. ومع ذلك، فإن تدريب نماذج MoE الكبيرة يمكن أن يكون مكلفاً جداً بسبب متطلبات الذاكرة والتواصل بين الأجهزة التي تتزايد مع زيادة عدد المعلمات.
هنا تظهر تقنية تجديد الخبراء (Expert Upcycling) كحل مبتكر. من خلال هذه الطريقة، يمكن توسيع قدرة نموذج MoE تدريجياً عن طريق زيادة عدد الخبراء أثناء عملية إعادة التدريب المستمرة. باستخدام نموذج معتمد يتكون من E خبير، يتم إنشاء نموذج جديد mE خبير من خلال النسخ الإضافي للخبراء وتوسيع جهاز التوجيه، مما يضمن الحفاظ على تكلفة الاستدلال لكل رمز.
تعتبر عملية النسخ الإضافي بمثابة بداية دافئة، حيث يرث النموذج الجديد التمثيلات المتعلمة من نقطة التفتيش السابقة، مما يتيح له الانطلاق من خسارة أقل بكثير مقارنة بالت初始化 العشوائي. بعد ذلك، تعمل عملية إعادة التدريب على كسر التناظر بين الخبراء المكررين لتوجيه التخصص.
بفضل إطار عمل نظري واضح، تمكن الباحثون من تحديد الفجوة في جودة النموذج إلى عنصرين: قدرة وقدرة التهيئة. كما طرحت طريقة جديدة تعتمد على اختيار الخبراء استنادًا إلى أهمية الدرجات، مما يعزز عملية النسخ الإضافي ويزيد من فعالية التدريب.
في تجارب ذات عدد معلمات يتراوح بين 7 و13 مليار، أثبت النموذج الذي تم تجديده أنه يعادل النماذج الثابتة في تقليل الخسارة، بينما حقق توفيراً بنسبة 32% في ساعات استخدام وحدة معالجة الرسوميات (GPU). هذه التطورات تفتح الأبواب لتطبيق فعّال لتجديد الخبراء كبديل موثوق وفعّال من حيث التكلفة.
تجديد الذكاء الاصطناعي: كيف تُعيد خوارزمية Mixture-of-Experts تشكيل مستقبل نماذج اللغة
اكتشاف سريع في عالم الذكاء الاصطناعي حيث تمثل تقنية تجديد الخبراء (Expert Upcycling) ثورة في تدريب نماذج Mixture-of-Experts. هذه الطريقة الجديدة تُحسن الكفاءة الحاسوبية وتزيد من جودة النماذج بشكل غير مسبوق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
