تعد مسألة الترابط (Mode Connectivity) في نماذج الذكاء الاصطناعي موضوعًا مثيرًا للجدل. ورغم أن هذه القضية خضعت لعديد من الدراسات، إلا أن دور المُحسِّن (Optimizer) حتى الآن لم يحصل على ما يستحقه من اهتمام. في دراسة حديثة نشرت على موقع ArXiv، تم تسليط الضوء على جوانب جديدة لدور المُحسِّن من خلال النظر في الاستيفاء الضمني الناتج عن استخدامه.
بينما يُعتبر كل من AdamW وMuon جزءًا من عائلة Lion-$\mathcal{K}$، تمكنت الدراسة من إثبات أن الحلول الناتجة عن أي مُحسِّن واحد تشكّل مجموعة مترابطة عند عرض كافٍ. وهذا ما يعد بمثابة اكتشاف مهم، حيث لم تكن نتائجه مطروحة في الدراسات السابقة التي تناولت هذا الموضوع.
كما تناول الباحثون كيف تتفاعل المناطق المولَّدة بفعل المُحسِّن. حيث أظهرت النتائج أنه في حالات العرض الكبير يمكن أن تكون منطقتان متميزتان أو تتداخلان بناءً على نوع التعديل. على عكس ذلك، تم رصد نتائج مثيرة للاهتمام عند استخدام AdamW وMuon على عرض صغير، حيث تَقارب الحلول لصياغة مكونات منفصلة بفارق خسارة يمكن إثباته.
في إطار تحليل تجربتنا، لاحظنا خلال التدريب المُسبق لـ GPT-2 أن المسارات الناتجة عن مُحسِّن واحد تحافظ على طيف كل نموذج، بينما تمتد المسارات الناتجة عن مُحسنات مختلفة لتظهر انتقالاً سلساً.
تُظهر هذه النتائج كيف أن الهيكل الناتج عن المُحسِّنين يتجاوز المعرفة التقليدية حول الترابط بين الأنماط، مما يفتح المجال لمزيد من الأبحاث في هذا المجال.
استكشاف الروابط الشائعة في نماذج الذكاء الاصطناعي: من AdamW إلى Muon!
تُظهر الأبحاث الجديدة أن دور المُحسِّن (Optimizer) في الترابط بين الحلول يجب أن يُعاد النظر فيه، حيث تلعب مُحسّنات مثل AdamW وMuon دوراً حيوياً في تشكيل بنى جديدة داخل نماذج تعلم الآلة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
