في عالم التعلم العميق، لطالما كانت هناك فجوة هندسية ملحوظة في كيفية تعامل المحسنات مع الشبكات العصبية. بينما تتميز بنيات الشبكات العصبية الحديثة بخصائص غنية من حيث التماثل وعدم التمييز، لا تزال المحسنات الشائعة مثل آدم (Adam) ونسخها المختلفة تعمل بطريقة تعتمد على الإحداثيات، مما يمنعها من احترام الهياكل التماثلية لمساحة المعلمات.
في هذا السياق، نقوم بتقديم مبدأ التوافق مع التماثل في تصميم المحسنات، حيث يجب أن تكون قاعدة تحديث التدرج متوافقة مع مجموعة التماثل التي تعمل على كتلة الوزن المعنية. ومن خلال اتباع هذا المبدأ، نقدم نظرة موحدة على التحديثات المتوافقة مع التماثل ثنائية الزاوية لطبقات المصفوفة العامة، كما هو الحال في طرق الانحدار الطيفي العشوائي (Stochastic Spectral Descent)، وتطبيقات مثل Muon وScion.
الأهم من ذلك، أنه من خلال التحول من المجموعات الزاوية إلى التماثلات الخاصة بتبديل العناصر والانتقالات المشتركة، يمكننا اشتقاق محسنات متوافقة مع التماثل لكتل المعلمات التي تختلف تماثلاتها عن تلك الخاصة بطبقات المصفوفة العامة. تشمل هذه الطرق الحلول الخاصة بمصفوفات التضمين (Embedding) ورؤوس النماذج اللغوية (LM Head)، بالإضافة إلى معلمات SwiGLU MLP وموصلات MoE.
تتضمن هذه التكوينات طرق تحديث مثل التحديثات الطيفية الأحادية، والمعيار الصفّي، والمختلط، والتحديثات المعتمدة على الصفوف والأعمدة. يؤدي ذلك إلى تطوير مجموعة محسنات من طبقة إلى أخرى، حيث يتم تخصيص تحديث لكل فئة رئيسية من المعلمات ذات المصفوفات بحيث يتناسب التوافق مع مجموعة تماثلها.
لقد قمنا بتأكيد هذا المبدأ من خلال تجارب ما قبل التدريب على نماذج اللغة MoE الكثيفة والنادرة، بما في ذلك نماذج مثل Qwen3-0.6B وGemma 3 1B، بالإضافة إلى نماذج OLMoE-1B-7B ونماذج gpt-oss بالحجم المنخفض. أظهرت نتائج هذه التجارب أن التحديثات المتوافقة مع التماثل تُحسن باستمرار الخسارة النهائية في التحقق، وفي بعض الحالات، استقرار التدريب، مقارنةً مع تحديثات آدمW العادية.
مبدأ التوافق مع التماثل في تصميم المحسنات: نحو أداء متفوق في تعلم العمق!
استكشف كيف يمكن لمبدأ التوافق مع التماثل أن يحدث تحولاً في تصميم المحسنات في تعلم العمق، حيث يقدم تقنيات جديدة تزيد من كفاءة الشبكات العميقة. سيؤدي ذلك إلى تحسينات ملحوظة في عملية التدريب والاستقرار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
