في الآونة الأخيرة، برزت تقنية On-Policy Self-Distillation (OPSD) كبديل واعد لتعلم التعزيز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR). تعد هذه التقنية بتحقيق دقة أعلى واستجابات أسرع من خلال تخصيص الجدارة على مستوى الرموز بناءً على معطيات محيطية.
لكن، ما يشغل بال الباحثين هو أن هذه الوعود لا تنعكس دائماً في مجالات التفكير الرياضي، حيث تتراجع مكاسب الدقة أحياناً وقد تصل إلى مستويات سلبية. نفترض أن الإشراف المتأخر يمكن أن يقدم بدائل أفضل على مستوى الرموز في المخرجات القصيرة التي تفتقر إلى التفكير، لكنه يتعامل بشكل أسهل مع التكرار في السلاسل الطويلة التي تمتاز بالتفكير.
لكي نختبر هذا، قمنا بتطبيق OPSD بشكل منفصل على مجموعات النتائج الصحيحة والخاطئة، مما أتاح لنا مراقبة كل من الضغط والتصحيح بشكل مستقل. أظهرت النتائج أن OPSD يعمل بشكل موثوق كآلية لضغط المعلومات في مجال التفكير الرياضي. حيث إن تدريب النماذج على النتائج الصحيحة يحافظ على الدقة بينما يختصر زمن الاستجابة بشكل كبير، بينما يؤثر التدريب على النتائج الخاطئة سلباً على الدقة.
بناءً على هذه النتائج، نوصي بمسار مُعدّل لما بعد التدريب في التفكير الرياضي: تدريب المفاهيم أولاً (SFT)، ثم RLVR، ثم أخيراً OPSD. أسلوب فريد يمكن أن يُحدث ثورة في كيفية معالجة نماذج الذكاء الاصطناعي للتفكير الرياضي.
تحول مثير: كيف يحقق OPSD نقلة نوعية في نماذج التفكير الرياضي؟
تقدم تقنيات On-Policy Self-Distillation (OPSD) مساراً جديداً لنماذج التفكير الرياضي، لكن نتائجها تظهر تبايناً في الفعالية. تعرف على كيفية تحسين الدقة والاستجابة القصيرة عبر مراحل ما بعد التدريب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
