استثمر في نتائجك: استراتيجية توزيع الموارد في التعلم التعزيزي بعد التدريب

Q: ما هو موضوع مقال "استثمر في نتائجك: استراتيجية توزيع الموارد في التعلم التعزيزي بعد التدريب"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "استثمر في نتائجك: استراتيجية توزيع الموارد في التعلم التعزيزي بعد التدريب" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم الذكاء الاصطناعي والتعلم الآلي، يُعتبر التعلم التعزيزي (Reinforcement Learning - RL) النهج السائد لتحسين نماذج اللغات الضخمة بعد التدريب. ومع ذلك، فإن عملية إنتاج النماذج خلال المرحلة الأونلاين، تعد واحدة من أكثر الإجراءات تكلفة. تستخدم تقنيات تحسين السياسات القائمة على المجموعات (Group-Based Policy Optimization) عدة تجارب لكل استفسار، لكن المشكلة تكمن في تخصيص الميزانية بشكل غير دقيق، مما يؤدي إلى هدر الموارد على استفسارات ذات عوائد متدنية.

لقد أظهرنا أن التحديثات القائم على المجموعات تكون أكثر فعالية في الأوضاع التي تتميز بتنوع عالي في المكافآت. ومع تطور السياسة خلال التدريب، يتوجب تقدير فائدة الاستفسارات بشكل أونلاين بدلاً من حسابها مسبقًا، لكن التقييم الشامل لكل استفسار يكون مكلفًا من الناحية الحسابية.

لذا، نقدم تقنية Pilot-Commit، وهي إطار عمل واعٍ للميزانية في تخصيص التجارب للتعلم التعزيزي بعد التدريب. هذه التقنية تفصل بين تقييم الاستفسارات والانتهاج: حيث تقدر مرحلة الطيار فائدة كل استفسار باستخدام جزء صغير من الميزانية، ثم يتم تخصيص التجارب المتبقية لاستفسارات ذات كفاءة عالية، بينما يتم تجاهل الاستفسارات ذات الإشارات الضعيفة.

عبر مجموعة متنوعة من مختبرات التفكير الرياضي ونماذج تتراوح من 1.5 مليار إلى 14 مليار معلمة، أثبتت Pilot-Commit قدرتها على تحقيق دقة مماثلة للتقنيات التقليدية ولكن بتكاليف أقل بكثير، حيث تصل إلى دقة الهدف أسهل بمعدل يزيد عن 1.9 مرة أسرع من تقنيات GRPO و4.0 مرة أسرع من DAPO في النماذج التراكمية.

استثمر في نتائجك: استراتيجية توزيع الموارد في التعلم التعزيزي بعد التدريب

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

استثمر في ذكاء ChatGPT: دليلك المبتكر للبحث العلمي!

كيف يمكن لفِرق المبيعات الاستفادة من ChatGPT لتحسين الأداء والنتائج؟

قم بتحليل البيانات بذكاء مع ChatGPT: اكتشافات ورؤى مبتكرة!