تعتبر نماذج اللغات الضخمة (LLMs) من أبرز التطورات في مجال الذكاء الاصطناعي، حيث تحقق أداءً مدهشًا بفضل حجمها الضخم وتنوع تكويناتها الهيكلية. لكنها، ورغم ذلك، تواجه تحديات كبيرة بسبب عدم التوازن في ضجيج التدرج الناتج عن هذا التنوع. فعلى الرغم من أن خوارزمية آدم (Adam) توفر القدرة على التكيف لكل باراميتر، إلا أنها لا تأخذ في الاعتبار تباين التدرجات على مستوى الوحدة، مما يؤدي إلى ضعف سرعة التقارب، الأداء غير المثالي، أو عدم استقرار التدريب.

يعتمد الكثير من المناهج الحالية على ضبط معدلات التعلم المعينة يدويًا أو استراتيجيات تحسين محددة، والتي تعتبر مكلفة من الناحية الحسابية وصعبة التعميم على مختلف المهام أو النماذج. لتجاوز هذه المشكلات، تم اقتراح نهج جديد يُعرف باسم "تعديل معدل التعلم على مستوى الوحدة عبر نسبة الإشارة إلى الضجيج (MoLS)", والذي يهدف إلى تقدير نسب الإشارة إلى الضجيج الخاصة بكل وحدة لتحسين تحديثات خوارزمية آدم.

تظهر النتائج التجريبية من تقييمات تدريب متعددة لنماذج اللغات الضخمة أن استخدام "MoLS" يمكن أن يعزز سرعة التقارب والتعميم، مما يوفر أداءً مشابهًا لتعزيزات معدلات التعلم المعينة بعناية، بينما يبقى متوافقًا مع خوارزميات التدريب الموفرة للذاكرة. إن هذه التطورات ليست مجرد تحسينات تقنية بل خطوات هامة نحو تحقيق الاستفادة القصوى من الإمكانيات الهائلة التي توفرها نماذج اللغات الضخمة.