في عالم الذكاء الاصطناعي، يسعى الباحثون دائمًا لإيجاد السبل الأكثر كفاءة لتعليم الأنظمة. أحدثت تقنية تكرير التعلم المعززة (On-Policy Distillation) ثورة في هذا المجال، مما يحسن من كفاءة التعلم عبر إشراف مكثف على مستوى التوكن من المعلمين. ومع ذلك، لاحظ الباحثون وجود انحياز في بيانات التعلم، حيث لا تتساوى جميع التوكنات عندما يتعلق الأمر بالتعلم.
عندما تكون عمليات التفاعل مع الطالب طويلة، تعود البيانات إلى توزيع المعلم، مما يؤدي إلى تدهور جودة الإشراف في المراحل اللاحقة. هذا يعني أنه عند استخدام 30% فقط من التوكنات الأولى، يمكن أن نحقق أداءً متساويًا تقريبًا مقارنة باستخدام كافة التوكنات. بينما استخدام 30% فقط من التوكنات الأخيرة يعطي نتائج ضعيفة للغاية.
هذا البحث يقدم فهمًا مدروسًا لهذه القضية، حيث قام الباحثون بتطوير تقنية جديدة تسمى Importance-Weighted On-Policy Distillation (IW-OPD). تقوم IW-OPD بتعيين أوزان لكل توكن بناءً على التباين المتراكم بين توزيعات الطالب والمعلم، مما يعزز الأوزان للتوكنات المبكرة ويخفض الأوزان للتوكنات اللاحقة. من خلال هذا النهج، أظهرت IW-OPD أنها تتقارب بسرعة أكبر عن بقية التقنيات التقليدية، حيث تحقق كفاءة تعلم أفضل وأداء نهائي محسن يصل إلى 6.9 نقاط على AIME-2025.
إن هذه التقنية قد تكون لها آثار عميقة على كيفية قيام الأنظمة الذكية بتعلم المهام المعقدة بكفاءة ودقة أعلى.
ثورة في التعلم: كيفية تحسين كفاءة التعلم باستخدام تقنيات تكرارية متعددة
تقديم مفهوم جديد في مجال التعلم المعزز، حيث تم اكتشاف تأثير الانحياز الوظيفي على كفاءة التعلم. استخراج الخسائر الديناميكية يقدم تحسينات ملحوظة في الأداء النهائي، مما يعزز من سرعة وفعالية الخوارزمية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
