تشهد الساحة البحثية في مجال الذكاء الاصطناعي (AI) تقدماً ملحوظاً، خصوصاً في طريقة تدريب نماذج التفكير (Reasoning Models). في العقدين الأخيرين، تم الاعتماد بشكل كبير على تقنيات مثل SFT-then-RLVR، إلا أن الأسئلة حول سبب نجاح هذا الترتيب تحديدًا أو لماذا تتوقف طرق RLVR عند البداية الباردة ظلت بلا إجابة شاملة.

تقدم الأبحاث الحالية تفسيرات جديدة باستخدام عائلة خسارة موحدة تدعى $J_Q$، تستند إلى لوغاريتم تساليس (Tsallis $q$-logarithm). تتنوع هذه العائلة من النماذج بين استغلال الموارد (RLVR) في $q=0$، والذي يمثل نقطة استغلال المعلومات، إلى تقدير الكثافة على مسارات غير مرئية (log-marginal-likelihood over latent trajectories) في $q=1$، والتي تمثل نقطة تقدير الكثافة.

تتضمن هذه النماذج استخدام تقنية تحليل تدفق التدرجات، حيث أظهرت النتائج أن النقطة الاستغلالية تتطلب وقتًا كبيرًا للهروب من مشكلة البداية الباردة، لكنها تعتبر قوية ضد ضوضاء التسميات. بينما في الجهة المقابلة، تبدأ النقطة الخاصة بتقدير الكثافة بشكل أسرع، لكنها تظل تعاني عند التعامل مع ضوضاء التسميات.

تعد النتائج هذه دليلاً على كيف يمكن لنموذج التدريب المدعوم بالتعلم المعزز (SFT) أن ينقل النموذج بعيدًا عن حالة البداية الباردة، يليها RLVR، مما يدعم فكرة SFT-then-RLVR.

علاوة على ذلك، تم تطوير تقديرات مونت كارلو جديدة، Gradient-Amplified RL (GARL) وPosterior-Attenuated Fine-Tuning (PAFT)، والتي تعمل مباشرة على سلسلة $J_Q$ دون الحاجة إلى تبريرات موضحة. تظهر هذه الأساليب تفوقاً كبيراً في الظروف الباردة، حيث أظهرت GARL تحسينات واضحة مقارنةً بالنماذج الأخرى مثل GRPO. وبالنسبة لبيانات FinQA وHotPotQA وMuSiQue، أثبتت GARL قدرتها على الهروب من حالة البداية الباردة، مما يشير إلى بداية جديدة لتقنيات التعلم المعزز.

في ضوء هذه الاكتشافات، يبقى السؤال: كيف ستؤثر هذه التطورات على مستقبل تدريب نماذج الذكاء الاصطناعي؟ شاركونا آرائكم!