في عالم الذكاء الاصطناعي، تبحث الفرق البحثية دائماً عن طرق جديدة لتحسين وتقوية أداء نماذج التفكير المعقدة. من بين هذه الطرق، تُعتبر تقنية التنقيح بالتغذية الراجعة (Feedback Distillation) خطوة رائدة عبر توفير إشراف على مستوى الرموز يمكنه تضمين المعرفة الخارجية.

بعد فترة التدريب للنماذج، يتم الجمع بين التحسينات الخاضعة للإشراف والتعلم المعزز باستخدام المكافآت الموثوقة، غير أن الأساليب التقليدية مثل GRPO تعاني من نقص المكافآت والاستكشاف المحدود. هنا يأتي دور تقنية Feedback Distillation التي تعتمد على التعلم الذاتي لتقديم أسلوب تدريب يفيد في تحسين نماذج البرهنة الرياضية مثل Lean4.

تظهر نتائج دراساتنا أن تقنية Feedback Distillation تحافظ على تنوع أكبر في المسارات التي يتم توليدها مقارنةً بأسلوب GRPO، مما يؤدي إلى زيادة في انحراف السياسة وتحسين النتائج بشكل عام. وبالتالي، عند بدء استخدام GRPO من نقطة فحص Feedback Distillation، تحقق النتائج أداءً أفضل من أي من الأساليب بشكل منفصل.

باختصار، تفتح نتائجنا آفاقًا واعدة لتحسين ما بعد التدريب في الأساليب المعقدة. ما رأيكم في هذه الابتكارات في مجال الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!