في عالم تقنيات الذكاء الاصطناعي، تمثل النماذج اللغوية الكبيرة (Large Language Models) نقطة تحول حقيقية في كيفية معالجة البيانات والتعلم منها. تحظى مراحل التدريب المختلفة هذه باهتمام كبير، وفي أحدث الأبحاث، تم تسليط الضوء على تأثير استخدام نفس المحسّن (Optimizer) أثناء كل من التدريب الأساسي والتدريب الكامل.
تقدم الدراسة التي نشرت على منصة arXiv ملاحظات مثيرة تفيد بأن استخدام نفس المحسّن خلال مراحل التدريب يساعد بشكل كبير في تقليل النسيان أثناء تعلم مهام جديدة. يدعى هذا الظاهرة بـ "اتساق المحسّن والنموذج". من خلال مجموعة من التجارب والتحليلات النظرية، تمكن الباحثون من استنتاج:
1. يمكن للمحسّنات التأثير على النماذج من خلال تأثيرات تنظيمية على التنشيطات، مما يقود إلى مناظر مختلفة حول نقاط التحقق المدربة مسبقًا.
2. في استجابة لهذا التأثير التنظيمي، يجب أن تتبع تحديثات الأوزان خلال التدريب الخاضع للإشراف (Supervised Finetuning) هياكل معينة لتقليل نسيان المعرفة المكتسبة مسبقًا.
تمت المقارنة بين المحسّنات المختلفة مثل Muon وAdamW، وبينما أظهر AdamW نتائج جيدة، إلا أن Muon أدت لأداء أضعف في المهام التي تتطلب التفكير. تم إثبات أن ميل Muon نحو الحفظ الآلي قد يعيق اكتساب الأنماط مع كمية صغيرة من البيانات، مما يمثل تحديًا في التدريب الخاضع للإشراف.
ختامًا، تكشف هذه الدراسة أهمية اختيار المحسّن الصحيح وتأثيره على مدى نجاح التدريب، مما يجعلنا نتساءل: هل سنشهد تغييرات جذرية في كيفية تدريب النماذج اللغوية الكبيرة في المستقبل؟
تحسين النموذج: لماذا استخدام نفس المحسّن في التدريب يحقق نتائج أفضل؟
تظهر أبحاث جديدة أن استخدام نفس المحسّن (Optimizer) في مراحل التدريب الكاملة للنماذج اللغوية الكبيرة (LLMs) يقلل من النسيان ويحقق أداءً متميزًا. تعرف على ظاهرة اتساق المحسّن والنموذج التي تحدث فرقًا كبيرًا في نتائج التعلم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
