في عالم الذكاء الاصطناعي، يواجه تدريب نماذج Mixture-of-Experts (MoE) تحديات كبيرة تتمثل في بطء التقارب وعدم استقرار العمليات التدريبية. في هذا السياق، تمثل تقنية "جروتر" (Grouter) إنجازًا بارزًا يسعى لتغيير قواعد اللعبة.
تعمل تقنيات MoE التقليدية على تدريب الوزنات الخاصة بالخبراء والبحث عن سياسة توجيه مثلى في وقت واحد، مما يؤدي غالبًا إلى استهلاك الكثير من الوقت والتعرض لصعوبات في الوصول إلى نتائج مرضية. أما "جروتر"، فهو يمثل طريقة توجيه استباقية تعتمد على استخراج هياكل عالية الجودة من نماذج MoE المدربة بالكامل، لتعمل كحل توجيه ثابت للنماذج المستهدفة.
الابتكار الرئيسي هنا هو فصل تحسين الهياكل عن تحديث الوزنات، مما يسهم في تسريع كل من جودة النموذج وسرعة تقاربه. علاوة على ذلك، تم تقديم تقنية طي الخبراء (expert folding) لضمان مرونة "جروتر" عبر تكوينات النماذج المختلفة. كما أن الخبراء يمكن تعديلهم موازنًا الأحمال عبر توزيعات البيانات المتنوعة.
تظهر التجارب أن "جروتر" يحقق أداءً وكفاءةً تفوق ما هو موجود، حيث زاد من استخدام بيانات ما قبل التدريب بمقدار 4.28 مرة، وحقق تسريعًا في الإنتاجية يصل إلى 33.5%. هذا يجعل من التوجيه الاستباقي نموذجًا أساسيًا لتدريب MoE القابل للتوسع.
للمطورين والباحثين المهتمين، تم نشر الكود الكامل ونقاط التفتيش المسبقة التدريب لـ "جروتر" على GitHub ليكون متاحًا للجميع للاستفادة والتطوير.
جروتر: ثورة في تسريع تدريب نماذج Mixture-of-Experts بفضل فصل التوجيه عن التمثيل
تقديم جروتر، تقنية مبتكرة تفصل بين توجيه نماذج Mixture-of-Experts (MoE) ووزناتها، مما يسهم في تسريع التدريب وتحسين الجودة. نتائج التجارب تشير لتسريع كبير في أداء النماذج واستخدام البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
