تعتبر نماذج اللغات الضخمة (LLMs) واحدة من الابتكارات البارزة في عالم الذكاء الاصطناعي، حيث يحتاج تدريب هذه النماذج إلى خوارزميات تحسين لا تقتصر فقط على الفعالية الإحصائية، بل يجب أن تتمتع أيضاً بكفاءة في استخدام الحوسبة والذاكرة عند الحجم الكبير. ورغم أن خوارزمية Adam لا تزال المسيطرة في عمليات التدريب الأولية والتحسين لنماذج اللغات واسعة النطاق، إلا أن الأبحاث الأخيرة قامت بإعادة النظر في كل عنصر من عناصر مجموعة التحسينات.

تتناول هذه الدراسات مجموعة واسعة من الجوانب، مثل تقدير اللحظات التكيفية (adaptive moment estimation) ووزن التآكل المفصول (decoupled weight decay) وبصمة الذاكرة (memory footprint) وتقدير الانحناء (curvature approximation) والتحديثات القائمة على الإشارات (sign-based updates) واستقرار الدفعات الكبيرة (large-batch stability) وبنية التدرجات المنخفضة الرتبة (low-rank gradient structure) والتحديثات المصفوفية المعتمدة على التOrthogonalization.

تستعرض هذه المقالة منهجيات التصميم المستخدمة للمحسنات في نماذج اللغات الضخمة من خلال عدسة الأنظمة والتحسين، حيث تصنف الأدبيات إلى محسنات تقليدية من الدرجة الأولى، ومحسنات تكيفية، ونسخ فعّالة لذاكرة، وطرق من الدرجة الثانية ومدركة للانحناء، بالإضافة إلى المحسنات القائمة على الإشارات والمكتشفة وطرق الرتبة المنخفضة والاعتماد على المصفوفات مثل Muon.

ويتم أيضاً مناقشة منهجية التقييم بما في ذلك عدالة معايير تبديل المعلمات، واعتماد المقاييس، وكفاءة الوقت، وكفاءة الرمز، وأعباء الذاكرة، والتقييم النهائي. كما نؤكد أن الأبحاث في مجال المحسنات لنماذج اللغات الضخمة تدخل مرحلة جديدة، حيث تنتقل من ادعاءات تسريع خوارزميات معينة إلى مقارنات صارمة تأخذ بالاعتبار الحجم وتقيّم بشكل مشترك التلاقي، والاستقرار، والذاكرة، وتعقيد التنفيذ.