في عالم الذكاء الاصطناعي، تعد خوارزميات التحسين (Optimization Algorithms) واحدة من العناصر الأساسية التي تحدد فعالية التدريب لنماذج التعلم الآلي. في هذا السياق، قدمت خوارزمية Muon أداءً يفوق خوارزمية Adam التقليدية بمعدل مرتين في تدريب نماذج اللغات الضخمة (Large Language Models). لكن، ما هو السر وراء هذه الميزة؟

نبدأ بتحليل المقدمة الهندسية التي تفسر تفوق Muon. لقد قمنا بتطبيق تقريب تايلور من الدرجة الثانية على مشهد التدريب (Training Landscape) ونلاحظ أن Muon تحقق انخفاضًا أكبر في الخسارة عند خطوة واحدة مقارنةً بـ Adam، في حين أن الخسارة التقييمية (Validation Loss) متطابقة.

على الرغم من أن كلا الخوارزميتين تحققان مكاسب من الدرجة الأولى مشابهة، إلا أن Muon تتعرض لعقوبة أعلى قليلًا من أعراض الانحناء في الدرجة الثانية. وعند تفكيك هذه العقوبة، نجد أنها تتعلق بمتوسط معدل التحديث (Update Norm) وشدة الانحدار الاتجاهية (Normalized Directional Sharpness - NDS).

وتعتبر الدراسات التي قمنا بها على بيانات القواعد النحوية الاحتمالية تشير إلى أن عدم التوازن في البيانات يعزز ميزة NDS لـ Muon على Adam. تعزز التحليلات الداخلية والعبور بين الطبقات الفهم الإضافي؛ حيث تظل ميزة NDS لمون منخفضة، في الغالب بسبب انحناء داخلي أقل.

نستطيع القول إن الفهم العميق للخصائص الهندسية للخوارزميات يمكن أن يفتح آفاقًا جديدة لتطوير أدوات أكثر كفاءة في المستقبل. فهل ستغير هذه التوجهات طريقة تصميم خوارزميات الذكاء الاصطناعي؟ شاركونا آرائكم!