في عصر تتسارع فيه وتيرة نمو نماذج الذكاء الاصطناعي، لا يزال التعلم المعزز من المكافآت القابلة للتحقق (RLVR) يعاني من إعتماده على نهج ضيق، عن طريق تقييم العديد من الردود والإشارة إلى صحة الإجابة النهائية برمز واحد فقط. لكن، العديد من البيئات توفر تغذية راجعة غنية تشمل مسارات التنفيذ، مخرجات الأدوات، تصحيحات الخبراء، وتقييمات ذاتية للنموذج.
تدرس الدراسة الجديدة كيفية استغلال هذه التغذية الراجعة عبر استخدام نسخة توزيع عصرية من خوارزمية التعلم التقليدي DAgger. حيث يحصل المتعلم على وصول محلي إلى توزيع الخبراء على الحالات التي زارها النموذج الحالي، مما ينتج عنه هدف بسيط يعتمد على الانتروبيا المتقاطعة (cross-entropy) يسمح باستخدام خبير خارجي ويعزز المنهجيات المعتمدة على التقديرات المستقبلية.
مع ذلك، تظهر الأبحاث أن نماذج التعلم السابقة التي تعتمد على الأهداف الذاتية لم تؤمن تحسينًا مستمرًا، حيث قد تؤدي لتحديثات تجعل النموذج يفضل خيارات أقل جودة. في المقابل، تؤكد الدراسة الجديدة أن الانتروبيا المتقاطعة تقدم تحسينًا متسقًا في السياسات وتضمن الأداء الجيد. وقد أظهرت التجارب أن الأسلوب الذي يحمل اسم DistIL، يحقق تقدمًا على نماذج RLVR والطرق ذات الأهداف الذاتية في مجالات متعددة بما في ذلك التفكير العلمي، البرمجة، وحل المشكلات الرياضية المعقدة.
كيفية تعزيز التعلم العميق من خلال التغذية الراجعة الغنية: اكتشاف نظام DAgger المتطور
تمثل الدراسة الجديدة خطوة هامة في استخدام التغذية الراجعة الغنية في التعلم المعزز وكيف يمكن لنموذج DAgger تطوير أداء السياسات. النتائج تشير إلى تحسينات ملحوظة في مختلف المجالات مثل البرمجة وحل المشكلات الرياضية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
