أصبح اتباع عملية التعديل الدقيق (Supervised Fine-Tuning - SFT) ثم التعلم التعزيزي (Reinforcement Learning - RL) من المسارات القياسية لتطوير النماذج اللغوية الكبيرة (Large Language Models - LLM). يُفترض أن يقدم التعديل الدقيق سلوكًا تمهيديًا مفيدًا للتعلم التعزيزي ليعزز من ميزات النموذج بشكل أكبر. ومع ذلك، تبين أن الحواجز الناتجة عن الإفراط في التعديل الدقيق تعاني من تحسينات محدودة خلال مرحلة التعلم التعزيزي.
تعود أسباب ذلك إلى فقدان مرونة النموذج، حيث تقل القدرة على إعادة تشكيل السياسة المهيكلة من خلال سFT. ولنفهم هذه الظاهرة بشكل أفضل، قمنا بإجراء تحليل دقيق من عدة جوانب، بما في ذلك التغيرات في المعلمات، والمساحات الناتجة، وديناميات تحسين التعلم التعزيزي.
تظهر نتائجنا أن النماذج التي تعرضت لإفراط في التعديل الدقيق تميل إلى إنتاج توزيعات رموز مفرطة الثقة، مما يؤدي إلى تشكيلات معلمات حادة تجعل من الصعب تحسينها في مرحلة التعلم التعزيزي.
لتمكين انتقال أكثر قوة من SFT إلى RL، نقترح تقنية تُسمى exttt{التجديد}، وهي طريقة بسيطة وفعالة تعمل على استعادة المرونة أثناء الحفاظ على السلوكيات المفيدة المكتسبة من SFT. تعتمد هذه التقنية على دمج النماذج المتمركزة على الأساس لتقليل الانزياح الناتج عن الإفراط في SFT مع إعادة ضبط خلايا عصبية مستهدفة للتخفيف من صلابة النموذج.
تظهر النتائج التجريبية على كل من مهام التفكير الرياضي والمهام الوكيلة أن نهجنا يحسن أداء التعلم التعزيزي على نماذج SFT المفرطة التدريب، بينما يعزز أيضًا القدرة على التعميم في المهام الجديدة غير الموزعة، مما يمهد الطريق لتطبيقات أكثر فعالية في المستقبل.
تحويل النماذج: كيف يعيد التجديد مرونة التعلم من أجل تعزيز فعالية التعلم التعزيزي؟
تعتبر عملية التعديل الدقيق والمتابعة بالتعلم التعزيزي نموذجًا شائعًا في تطوير النماذج اللغوية الكبيرة. ومع ذلك، تكشف الأبحاث الجديدة عن أن الإفراط في التعديل الدقيق قد يؤدي إلى فقدان المرونة، مما يؤثر سلبًا على أداء التعلم التعزيزي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
