في عالم التعلم المعزز (Reinforcement Learning)، يمثل تحقيق نتائج موثوقة ذات أهمية كبيرة، حيث أن المكافآت القابلة للتحقق تعد وسيلة شائعة لتعزيز نماذج التفكير بعد التدريب. ومع ذلك، فإن المكافآت النادرة تجعل عملية الاستكشاف تحديًا. هنا يأتي دور أسلوب جديد لتحسين الأهداف في وقت الاستنتاج، مثل pass@K وmax@K.
حتى الآن، اعتمدت التقديرات المستخدمة في هذه الأهداف على إشارات مختلفة وقواعد أساسية وتنظيمات غير متسقة، مما جعل من الصعب فهم علاقاتها. لذلك، قمنا بدراسة هذه القضية من خلال تصميم قواعد أساسية وتركيز على المزايا.
انطلقنا من تقدير الميزة لطريقة رائدة في هذا المجال، حيث اتضح أنها غير متحيزة بالنسبة لاستراتيجية التعزيز، لكنها أنتجت مزية غير متركزة. لتجاوز هذه العقبة، قمنا بإدخال قاعدة Leave-Two-Out (L2O) التي تحافظ على عدم التحيز بينما تجعل مزايا دفعة التنفيذ مركزة تمامًا.
النتيجة هي طريقة MaxPO التي يمكن تنفيذها بكفاءة في وقت صغير، وتندمج بشكل طبيعي في التعلم المعزز القائم على المجموعات الخاصة بنماذج اللغة الكبيرة (Large Language Models) بعد التدريب.
علاوة على ذلك، قمنا باشتقاق ميزة دفعة نهائية معيارية لـ max@K، مما يوفر رؤية موحدة للتقديرات الحالية للمزايا.
ثبتت التجارب أن قاعدة L2O تقلل من تباين التدرجات وتتفوق على البدائل غير المتركزة، مما يفتح آفاق جديدة في تحسين أداء التعلم المعزز.
تقديرات المزايا الجديدة: تحسين استراتيجية التعزيز مع Max@K
استكشاف تقديرات المزايا في التعلم المعزز يمكن أن يغير قواعد اللعبة في تحسين نماذج اللغة. تعرف على كيفية استخدام طريقة MaxPO لتحقيق تحسين جوهري في الأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
