في عالم الذكاء الاصطناعي، فإن البحث عن طرق لتحسين كفاءة التعلم لحظي وهام. هنا يأتي دور Muon، الذي برز كأداة واعدة لتحسين عمليات تدريب النماذج الأساسية الكبيرة. يستفيد Muon من الهيكل المصفوفي لتحديثات الشبكات العصبية من خلال تكرار عملية التعامد (orthogonalization). لكن، كانت فعالية Muon مرتبطة بعدد تكرارات نيوتن-شولتز (Newton–Schulz) المطلوبة، مما شكل تحديات فيما يتعلق بالكفاءة بسبب التكاليف الحسابية والتواصل العالية.
الانطلاقة الجديدة كانت مع تطوير Muon$^2$، وهو امتداد لـ Muon يهدف إلى تعزيز كل من الأداء والكفاءة من خلال تطبيق تقنية معالجة لحظية تعتمد على اللحظة الثانية بشكل مشابه لما هو مُستخدم في خوارزمية آدم (Adam). الفهم العميق هنا هو أن التحدي الرئيسي في تقريب القطب في Muon يكمن في مصفى الزخم غير المشروط (ill-conditioned momentum matrix). Muon$^2$ يحسن طيف هذه المصفاة بشكل ملحوظ، مما يؤدي إلى تسريع عملية الاقتراب نحو التعامد الكافي عمليًا.
علاوة على ذلك، تمت دراسة جودة التعامد بشكل عملي من خلال محاذاة الاتجاهات، مما أظهر لها تقدمًا دراماتيكيًا عن Muon في كل خطوة قطبية. أثناء التجارب على نماذج مثل GPT وLLaMA وMixture-of-Experts، بما يصل إلى 13 مليار معلمة، أثبت Muon$^2$ (وعبارة Muon$^2$-F التي تحافظ على معظم فوائدها) تفوقه المستمر على Muon وعلى تغيراته الأخرى، مُقللاً عدد_iterations نويتن-شولتز_ بنسبة 40%، ومحققًا توفيرًا يصل إلى ربع زمن التدريب مقارنة بـ Muon عند الوصول إلى نفس مستوى الخسارة.
ثورة في تحسين أداء النماذج الذكائية: Muon$^2$ يرفع كفاءة عمليات التعلم!
تمكن الباحثون من تطوير Muon$^2$، مما يحسن جودة وكفاءة عمليات التعلم في النماذج الكبيرة. التقدم الجديد يعد بتحسين سرعة التدريب وتخفيض زمن العمليات بشكل ملحوظ.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
