أصبح اتباع عملية التعديل الدقيق (Supervised Fine-Tuning - SFT) ثم التعلم التعزيزي (Reinforcement Learning - RL) من المسارات القياسية لتطوير النماذج اللغوية الكبيرة (Large Language Models - LLM). يُفترض أن يقدم التعديل الدقيق سلوكًا تمهيديًا مفيدًا للتعلم التعزيزي ليعزز من ميزات النموذج بشكل أكبر. ومع ذلك، تبين أن الحواجز الناتجة عن الإفراط في التعديل الدقيق تعاني من تحسينات محدودة خلال مرحلة التعلم التعزيزي.

تعود أسباب ذلك إلى فقدان مرونة النموذج، حيث تقل القدرة على إعادة تشكيل السياسة المهيكلة من خلال سFT. ولنفهم هذه الظاهرة بشكل أفضل، قمنا بإجراء تحليل دقيق من عدة جوانب، بما في ذلك التغيرات في المعلمات، والمساحات الناتجة، وديناميات تحسين التعلم التعزيزي.

تظهر نتائجنا أن النماذج التي تعرضت لإفراط في التعديل الدقيق تميل إلى إنتاج توزيعات رموز مفرطة الثقة، مما يؤدي إلى تشكيلات معلمات حادة تجعل من الصعب تحسينها في مرحلة التعلم التعزيزي.

لتمكين انتقال أكثر قوة من SFT إلى RL، نقترح تقنية تُسمى exttt{التجديد}، وهي طريقة بسيطة وفعالة تعمل على استعادة المرونة أثناء الحفاظ على السلوكيات المفيدة المكتسبة من SFT. تعتمد هذه التقنية على دمج النماذج المتمركزة على الأساس لتقليل الانزياح الناتج عن الإفراط في SFT مع إعادة ضبط خلايا عصبية مستهدفة للتخفيف من صلابة النموذج.

تظهر النتائج التجريبية على كل من مهام التفكير الرياضي والمهام الوكيلة أن نهجنا يحسن أداء التعلم التعزيزي على نماذج SFT المفرطة التدريب، بينما يعزز أيضًا القدرة على التعميم في المهام الجديدة غير الموزعة، مما يمهد الطريق لتطبيقات أكثر فعالية في المستقبل.