في عالم الذكاء الاصطناعي والتعلم الآلي، يُعتبر التعلم التعزيزي (Reinforcement Learning - RL) النهج السائد لتحسين نماذج اللغات الضخمة بعد التدريب. ومع ذلك، فإن عملية إنتاج النماذج خلال المرحلة الأونلاين، تعد واحدة من أكثر الإجراءات تكلفة. تستخدم تقنيات تحسين السياسات القائمة على المجموعات (Group-Based Policy Optimization) عدة تجارب لكل استفسار، لكن المشكلة تكمن في تخصيص الميزانية بشكل غير دقيق، مما يؤدي إلى هدر الموارد على استفسارات ذات عوائد متدنية.
لقد أظهرنا أن التحديثات القائم على المجموعات تكون أكثر فعالية في الأوضاع التي تتميز بتنوع عالي في المكافآت. ومع تطور السياسة خلال التدريب، يتوجب تقدير فائدة الاستفسارات بشكل أونلاين بدلاً من حسابها مسبقًا، لكن التقييم الشامل لكل استفسار يكون مكلفًا من الناحية الحسابية.
لذا، نقدم تقنية Pilot-Commit، وهي إطار عمل واعٍ للميزانية في تخصيص التجارب للتعلم التعزيزي بعد التدريب. هذه التقنية تفصل بين تقييم الاستفسارات والانتهاج: حيث تقدر مرحلة الطيار فائدة كل استفسار باستخدام جزء صغير من الميزانية، ثم يتم تخصيص التجارب المتبقية لاستفسارات ذات كفاءة عالية، بينما يتم تجاهل الاستفسارات ذات الإشارات الضعيفة.
عبر مجموعة متنوعة من مختبرات التفكير الرياضي ونماذج تتراوح من 1.5 مليار إلى 14 مليار معلمة، أثبتت Pilot-Commit قدرتها على تحقيق دقة مماثلة للتقنيات التقليدية ولكن بتكاليف أقل بكثير، حيث تصل إلى دقة الهدف أسهل بمعدل يزيد عن 1.9 مرة أسرع من تقنيات GRPO و4.0 مرة أسرع من DAPO في النماذج التراكمية.
استثمر في نتائجك: استراتيجية توزيع الموارد في التعلم التعزيزي بعد التدريب
تمثل استراتيجيات التعلم التعزيزي (RL) الأساس لتحسين النماذج اللغوية الكبيرة بعد التدريب، لكن إدارة التوزيعات للموارد تعتبر تحدياً. نقدم تقنية Pilot-Commit الجديدة التي تعزز كفاءة تخصيص الموارد لتحسين النتائج بسرعة أكبر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
