تحويل النماذج: كيف يعيد التجديد مرونة التعلم من أجل تعزيز فعالية التعلم التعزيزي؟

Q: ما هو موضوع مقال "تحويل النماذج: كيف يعيد التجديد مرونة التعلم من أجل تعزيز فعالية التعلم التعزيزي؟"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "تحويل النماذج: كيف يعيد التجديد مرونة التعلم من أجل تعزيز فعالية التعلم التعزيزي؟" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

أصبح اتباع عملية التعديل الدقيق (Supervised Fine-Tuning - SFT) ثم التعلم التعزيزي (Reinforcement Learning - RL) من المسارات القياسية لتطوير النماذج اللغوية الكبيرة (Large Language Models - LLM). يُفترض أن يقدم التعديل الدقيق سلوكًا تمهيديًا مفيدًا للتعلم التعزيزي ليعزز من ميزات النموذج بشكل أكبر. ومع ذلك، تبين أن الحواجز الناتجة عن الإفراط في التعديل الدقيق تعاني من تحسينات محدودة خلال مرحلة التعلم التعزيزي.

تعود أسباب ذلك إلى فقدان مرونة النموذج، حيث تقل القدرة على إعادة تشكيل السياسة المهيكلة من خلال سFT. ولنفهم هذه الظاهرة بشكل أفضل، قمنا بإجراء تحليل دقيق من عدة جوانب، بما في ذلك التغيرات في المعلمات، والمساحات الناتجة، وديناميات تحسين التعلم التعزيزي.

تظهر نتائجنا أن النماذج التي تعرضت لإفراط في التعديل الدقيق تميل إلى إنتاج توزيعات رموز مفرطة الثقة، مما يؤدي إلى تشكيلات معلمات حادة تجعل من الصعب تحسينها في مرحلة التعلم التعزيزي.

لتمكين انتقال أكثر قوة من SFT إلى RL، نقترح تقنية تُسمى exttt{التجديد}، وهي طريقة بسيطة وفعالة تعمل على استعادة المرونة أثناء الحفاظ على السلوكيات المفيدة المكتسبة من SFT. تعتمد هذه التقنية على دمج النماذج المتمركزة على الأساس لتقليل الانزياح الناتج عن الإفراط في SFT مع إعادة ضبط خلايا عصبية مستهدفة للتخفيف من صلابة النموذج.

تظهر النتائج التجريبية على كل من مهام التفكير الرياضي والمهام الوكيلة أن نهجنا يحسن أداء التعلم التعزيزي على نماذج SFT المفرطة التدريب، بينما يعزز أيضًا القدرة على التعميم في المهام الجديدة غير الموزعة، مما يمهد الطريق لتطبيقات أكثر فعالية في المستقبل.

تحويل النماذج: كيف يعيد التجديد مرونة التعلم من أجل تعزيز فعالية التعلم التعزيزي؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

ثورة في العلاج العصبي: جهاز جديد يُزرع في دماغ الإنسان من شركة ماكس هوداك