تعد مسألة الترابط (Mode Connectivity) في نماذج الذكاء الاصطناعي موضوعًا مثيرًا للجدل. ورغم أن هذه القضية خضعت لعديد من الدراسات، إلا أن دور المُحسِّن (Optimizer) حتى الآن لم يحصل على ما يستحقه من اهتمام. في دراسة حديثة نشرت على موقع ArXiv، تم تسليط الضوء على جوانب جديدة لدور المُحسِّن من خلال النظر في الاستيفاء الضمني الناتج عن استخدامه.

بينما يُعتبر كل من AdamW وMuon جزءًا من عائلة Lion-$\mathcal{K}$، تمكنت الدراسة من إثبات أن الحلول الناتجة عن أي مُحسِّن واحد تشكّل مجموعة مترابطة عند عرض كافٍ. وهذا ما يعد بمثابة اكتشاف مهم، حيث لم تكن نتائجه مطروحة في الدراسات السابقة التي تناولت هذا الموضوع.

كما تناول الباحثون كيف تتفاعل المناطق المولَّدة بفعل المُحسِّن. حيث أظهرت النتائج أنه في حالات العرض الكبير يمكن أن تكون منطقتان متميزتان أو تتداخلان بناءً على نوع التعديل. على عكس ذلك، تم رصد نتائج مثيرة للاهتمام عند استخدام AdamW وMuon على عرض صغير، حيث تَقارب الحلول لصياغة مكونات منفصلة بفارق خسارة يمكن إثباته.

في إطار تحليل تجربتنا، لاحظنا خلال التدريب المُسبق لـ GPT-2 أن المسارات الناتجة عن مُحسِّن واحد تحافظ على طيف كل نموذج، بينما تمتد المسارات الناتجة عن مُحسنات مختلفة لتظهر انتقالاً سلساً.

تُظهر هذه النتائج كيف أن الهيكل الناتج عن المُحسِّنين يتجاوز المعرفة التقليدية حول الترابط بين الأنماط، مما يفتح المجال لمزيد من الأبحاث في هذا المجال.