في عصر تتسارع فيه وتيرة نمو نماذج الذكاء الاصطناعي، لا يزال التعلم المعزز من المكافآت القابلة للتحقق (RLVR) يعاني من إعتماده على نهج ضيق، عن طريق تقييم العديد من الردود والإشارة إلى صحة الإجابة النهائية برمز واحد فقط. لكن، العديد من البيئات توفر تغذية راجعة غنية تشمل مسارات التنفيذ، مخرجات الأدوات، تصحيحات الخبراء، وتقييمات ذاتية للنموذج.

تدرس الدراسة الجديدة كيفية استغلال هذه التغذية الراجعة عبر استخدام نسخة توزيع عصرية من خوارزمية التعلم التقليدي DAgger. حيث يحصل المتعلم على وصول محلي إلى توزيع الخبراء على الحالات التي زارها النموذج الحالي، مما ينتج عنه هدف بسيط يعتمد على الانتروبيا المتقاطعة (cross-entropy) يسمح باستخدام خبير خارجي ويعزز المنهجيات المعتمدة على التقديرات المستقبلية.

مع ذلك، تظهر الأبحاث أن نماذج التعلم السابقة التي تعتمد على الأهداف الذاتية لم تؤمن تحسينًا مستمرًا، حيث قد تؤدي لتحديثات تجعل النموذج يفضل خيارات أقل جودة. في المقابل، تؤكد الدراسة الجديدة أن الانتروبيا المتقاطعة تقدم تحسينًا متسقًا في السياسات وتضمن الأداء الجيد. وقد أظهرت التجارب أن الأسلوب الذي يحمل اسم DistIL، يحقق تقدمًا على نماذج RLVR والطرق ذات الأهداف الذاتية في مجالات متعددة بما في ذلك التفكير العلمي، البرمجة، وحل المشكلات الرياضية المعقدة.