تمثل نماذج اللغة الكبرى المعتمدة على خلط الخبراء (Mixture of Experts - MoE) واحدة من أهم التطورات في مجال الذكاء الاصطناعي، حيث تحقق أداءً متميزاً على نطاق واسع. ومع ذلك، يواجه التعلم المعزز (Reinforcement Learning - RL) في نماذج MoE تحديات كبيرة، أبرزها عدم الاستقرار أثناء التدريب.
تعود جذور هذه المشكلة إلى ظاهرة تعرف باسم "انجراف الموجه" (router drift)، حيث يمكن أن تتغير تفاعلات الخبراء بشكل كبير بين تحديثات النموذج ومرحلتَي التدريب والتنفيذ، مما يسبب عدم تطابق بين المراحل ويؤثر على وزن تقدير الأهمية في خوارزميات RL بأسلوب PPO.
لحل هذه القضية، يأتي الابتكار المعروف باسم PR2، والذي يقدم تقنية إعادة توجيه تنبؤية. يعتمد PR2 على إضافة مُنَبِّه تطوري خفيف الوزن لكل موجه، يتعلم توقّع تطورات الموجه على مدى قصير. خلال مرحلة التنفيذ، يتم استخدام توزيع التوجيه التنبؤي لتطبيق توجيه افضل، مما يسمح للمتدرجات بالوصول إلى الخبراء الذين من المحتمل أن يصبحوا نشطين بعد التحديثات.
أما في مرحلة التدريب، فيتم إعادة تشغيل المسار المتوقع لضمان الحفاظ على التناسق اللازم لتقدير الأهمية بشكل مستقر. أظهرت التحليلات النظرية والتجارب العملية أن PR2 يساهم في تقليل عدم التطابق الناتج عن التوجيه، مما يحسن استقرار التعلم المعزز ويحقق أداءً أقوى في مجموعة متنوعة من التحديات المنهجية.
ثورة جديدة في التعلم المعزز: PR2 لتخفيف عدم الاستقرار في نماذج اللغة الكبرى
تقدم تقنية PR2 تحسينات مهمة لنماذج اللغة الكبرى المعتمدة على خلط الخبراء، حيث تعالج مشكلة عدم الاستقرار في التعلم المعزز. هذا الابتكار يعد بتحسين الأداء وزيادة الثبات في النتائج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
