في عالم [التعلم](/tag/التعلم) العميق، لطالما كانت هناك فجوة هندسية ملحوظة في كيفية تعامل المحسنات مع [الشبكات العصبية](/tag/[الشبكات](/tag/الشبكات)-العصبية). بينما تتميز بنيات [الشبكات العصبية](/tag/[الشبكات](/tag/الشبكات)-العصبية) الحديثة بخصائص غنية من حيث التماثل وعدم التمييز، لا تزال المحسنات الشائعة مثل آدم (Adam) ونسخها المختلفة تعمل بطريقة تعتمد على الإحداثيات، مما يمنعها من احترام الهياكل التماثلية لمساحة المعلمات.
في هذا السياق، نقوم بتقديم مبدأ [التوافق](/tag/التوافق) مع التماثل في [تصميم](/tag/تصميم) المحسنات، حيث يجب أن تكون قاعدة [تحديث](/tag/تحديث) التدرج متوافقة مع مجموعة التماثل التي تعمل على كتلة الوزن المعنية. ومن خلال اتباع هذا المبدأ، نقدم نظرة موحدة على [التحديثات](/tag/التحديثات) المتوافقة مع التماثل ثنائية الزاوية لطبقات المصفوفة العامة، كما هو الحال في طرق [الانحدار](/tag/الانحدار) الطيفي العشوائي (Stochastic Spectral Descent)، وتطبيقات مثل [Muon](/tag/muon) وScion.
الأهم من ذلك، أنه من خلال التحول من [المجموعات](/tag/المجموعات) الزاوية إلى التماثلات الخاصة بتبديل العناصر والانتقالات المشتركة، يمكننا اشتقاق [محسنات](/tag/محسنات) متوافقة مع التماثل لكتل المعلمات التي تختلف تماثلاتها عن تلك الخاصة بطبقات المصفوفة العامة. تشمل هذه الطرق الحلول الخاصة بمصفوفات التضمين (Embedding) ورؤوس [النماذج اللغوية](/tag/[النماذج](/tag/النماذج)-اللغوية) (LM Head)، بالإضافة إلى معلمات SwiGLU [MLP](/tag/mlp) وموصلات MoE.
تتضمن هذه التكوينات طرق [تحديث](/tag/تحديث) مثل [التحديثات](/tag/التحديثات) الطيفية الأحادية، والمعيار الصفّي، والمختلط، والتحديثات المعتمدة على الصفوف والأعمدة. يؤدي ذلك إلى [تطوير](/tag/تطوير) مجموعة [محسنات](/tag/محسنات) من طبقة إلى أخرى، حيث يتم [تخصيص](/tag/تخصيص) [تحديث](/tag/تحديث) لكل فئة رئيسية من المعلمات ذات [المصفوفات](/tag/المصفوفات) بحيث يتناسب [التوافق](/tag/التوافق) مع مجموعة تماثلها.
لقد قمنا بتأكيد هذا المبدأ من خلال [تجارب](/tag/تجارب) ما قبل [التدريب](/tag/التدريب) على [نماذج اللغة](/tag/[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) MoE الكثيفة والنادرة، بما في ذلك [نماذج](/tag/نماذج) مثل Qwen3-0.6B وGemma 3 1B، بالإضافة إلى [نماذج](/tag/نماذج) OLMoE-1B-7B ونماذج gpt-oss بالحجم المنخفض. أظهرت نتائج هذه [التجارب](/tag/التجارب) أن [التحديثات](/tag/التحديثات) المتوافقة مع التماثل تُحسن باستمرار الخسارة النهائية في التحقق، وفي بعض الحالات، [استقرار](/tag/استقرار) التدريب، مقارنةً مع [تحديثات](/tag/تحديثات) آدمW العادية.
مبدأ التوافق مع التماثل في تصميم المحسنات: نحو أداء متفوق في تعلم العمق!
استكشف كيف يمكن لمبدأ التوافق مع التماثل أن يحدث تحولاً في تصميم المحسنات في تعلم العمق، حيث يقدم تقنيات جديدة تزيد من كفاءة الشبكات العميقة. سيؤدي ذلك إلى تحسينات ملحوظة في عملية التدريب والاستقرار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
