تعتبر خوارزمية مُون واحدة من أبرز الخيارات المتاحة للمحسنات في تدريب نماذج اللغات الضخمة (Large Language Models)، حيث أصبحت تكتسب شهرة كبيرة في الأوساط الأكاديمية والصناعية. تعتمد هذه الخوارزمية على قواعد تحديث مؤرخ تصحيحية تهدف إلى تحسين معايير الأداء بشكل فعال.
ومؤخراً، أُجري بحث شامل تم فيه تتبع كيفية تصرف طيف القيم المفردة (Singular Value Spectrum) لمصفوفات الزخم عبر طبقات نماذج تتراوح من 77 مليون إلى 2.8 مليار معلمة. وكشفت النتائج أن القيم المفردة تستقر بعد فترة قصيرة من بدء التدريب، فيما يتم تحديدها من خلال نوع الطبقة وحجم النموذج.
تتابع القيم الثابتة نمطاً واضحاً في العلاقة بين حجم النموذج، حيث تتناسب بعض الطبقات مع انخفاض طفيف في النموذج بحوالي $M^{-0.25}$، مما يعني أن إعدادات خوارزمية NS المعتادة ستظل فعّالة حتى عند زيادة حجم النموذج. ومع ذلك، تظهر بعض الطبقات الأخرى نمطاً تصاعدياً أكثر حدة يصل إلى $M^{-0.96}$، مما يعني أنها ستواجه تحديات في الأداء عند التعامل مع نماذج كبيرة الحجم ما لم يتم استخدام مزيد من التكرارات في خوارزمية NS أو ضبط المعاملات بشكل أفضل.
لهذا، فإن القوانين الجديدة تقدم للممارسين وصفة واضحة ومبنية على الطبقات لاختيار الحد الأدنى من إعدادات NS اللازمة لتحسين الاتجاهات الهامة، مما يساعد في تجنب الحسابات غير الضرورية دون التنازل عن جودة التحديثات. يُعتبر هذا التطور نقطة تحول في كيفية تدريب نماذج الذكاء الاصطناعي بشكل أكثر فاعلية، خاصة في ظل التوجهات الحالية نحو النماذج الكبيرة والمتطورة.
قوانين التوسع الطيفي في مُون: كيف تُعيد صياغة خوارزميات الذكاء الاصطناعي؟
تقدم دراسة جديدة فهماً متعمقًا لقوانين التوسع الطيفي في خوارزمية مُون لتحسين نماذج اللغات الضخمة. النتائج تكشف كيف يمكن تحسين عملية التدريب بطرق فعّالة من حيث التكلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
