تعتبر تقنيات التعلم تحت الإشراف (Supervised Fine-Tuning - SFT) والتعلم المعزز (Reinforcement Learning - RL) من الركائز الأساسية في تطوير نماذج اللغات الكبيرة (Large Language Models - LLM). ولكن ما هي العلاقة الدقيقة بينهما؟ دراسة جديدة تطرح نقاطًا مثيرة للاهتمام حول كيف يسهم التعلم المعزز في استعادة القدرة على معالجة البيانات الخارجة عن نطاق التدريب (Out-of-Distribution - OOD) بعد فقدان هذه القدرة خلال عملية SFT.

أفضل أداء لتمكين نماذج الذكاء الاصطناعي في معالجة المعلومات يأتي عادةً بعد اتباع المسار الذي يتضمن SFT، يليه RL. لكن كيف يمكننا فهم الآلية التي تجعل من هذا المسار ناجحًا؟ تكشف الأبحاث أن أداء OOD غالبًا ما يصل إلى ذروته خلال مراحل مبكرة من SFT، ثم يبدأ في الانخفاض بالرغم من التحسين المستمر في الأداء أثناء معالجة البيانات في نفس التوزيع (In Distribution - ID).

يبدو أن التعلم المعزز لا يتفوق على ذروة SFT المبكرة، بل يعمل على استعادة تلك القدرة المفقودة، ولكن ضمن نطاق محدود من نقاط التفتيش (Checkpoints) الخاصة بالتدريب. من جهة أخرى، تشير تحليلات الطيف أن نمط النسيان والاستعادة يت correlates مع دوران المتجهات المفردة، بينما تبقى القيم المفردة مستقرة إلى حد كبير.

هذا يقدم لنا فكرة أكثر دقة حول ديناميات ما بعد التدريب: يمكن أن ينسى SFT، بينما يستطيع RL أن يستعيد. قد يكون التحكم في دوران المتجهات المفردة وسيلة لتحسين قوة النماذج ضد بيانات OOD.

للمزيد من المعلومات ولتحميل الشيفرة المستخدمة في البحث، يمكنكم زيارة [المستودع هنا](https://github.com/jinhangzhan/RL_Heals_SFT.git).