في عالم تقنيات الذكاء الاصطناعي، تمثل النماذج اللغوية الكبيرة (Large Language Models) نقطة تحول حقيقية في كيفية معالجة البيانات والتعلم منها. تحظى مراحل التدريب المختلفة هذه باهتمام كبير، وفي أحدث الأبحاث، تم تسليط الضوء على تأثير استخدام نفس المحسّن (Optimizer) أثناء كل من التدريب الأساسي والتدريب الكامل.

تقدم الدراسة التي نشرت على منصة arXiv ملاحظات مثيرة تفيد بأن استخدام نفس المحسّن خلال مراحل التدريب يساعد بشكل كبير في تقليل النسيان أثناء تعلم مهام جديدة. يدعى هذا الظاهرة بـ "اتساق المحسّن والنموذج". من خلال مجموعة من التجارب والتحليلات النظرية، تمكن الباحثون من استنتاج:
1. يمكن للمحسّنات التأثير على النماذج من خلال تأثيرات تنظيمية على التنشيطات، مما يقود إلى مناظر مختلفة حول نقاط التحقق المدربة مسبقًا.
2. في استجابة لهذا التأثير التنظيمي، يجب أن تتبع تحديثات الأوزان خلال التدريب الخاضع للإشراف (Supervised Finetuning) هياكل معينة لتقليل نسيان المعرفة المكتسبة مسبقًا.

تمت المقارنة بين المحسّنات المختلفة مثل Muon وAdamW، وبينما أظهر AdamW نتائج جيدة، إلا أن Muon أدت لأداء أضعف في المهام التي تتطلب التفكير. تم إثبات أن ميل Muon نحو الحفظ الآلي قد يعيق اكتساب الأنماط مع كمية صغيرة من البيانات، مما يمثل تحديًا في التدريب الخاضع للإشراف.

ختامًا، تكشف هذه الدراسة أهمية اختيار المحسّن الصحيح وتأثيره على مدى نجاح التدريب، مما يجعلنا نتساءل: هل سنشهد تغييرات جذرية في كيفية تدريب النماذج اللغوية الكبيرة في المستقبل؟