أصبحت نماذج اللغة الكبيرة (Large Language Models) جزءاً أساسياً من أنظمة الذكاء الاصطناعي الحديثة، إلا أن تحسين استكشافها للمسارات الصحيحة ما زال يشكل تحدياً بارزاً في مجال التعلم المعزز (Reinforcement Learning). الاستكشاف الفعّال يتطلب تحديد مسارات ذات جودة عالية من بين مساحة واسعة من تسلسلات اللغة الطبيعية.
تواجه الطرق التقليدية التي تستخدم حالياً العديد من العراقيل، حيث يعتمد نموذج GRPO على عينة محددة من الجذر، مما يؤدي إلى استنزاف المسارات ذات الاحتمالية العالية بينما تظل الحالات العميقة المعرضة للأخطاء غير مستكشفة. بينما تقوم الطرق القائمة على الأشجار بتوزيع الموارد بشكل عشوائي على حالات غير تراكمية، مما يفشل في كشف النهايات الصحيحة النادرة.
لذا، ابتكر الباحثون استراتيجية جديدة تُدعى Deep Dense Exploration (DDE) تعتمد على التركيز على ما يُعرف بـ 'المفاتيح' (pivots) - حالات عميقة وقابلة للإصلاح ضمن المسارات غير الناجحة. ويأتي نموذج DEEP-GRPO، وهو التطبيق العملي لاستراتيجية DDE، مع ثلاث ابتكارات رئيسية:
1. وظيفة خفيفة الوزن تستند إلى البيانات، تقوم تلقائيًا بالتوازن بين القابلية للإصلاح والانحياز العميق لتحديد حالات المفاتيح.
2. إعادة أخذ عينات كثيفة محليًا عند كل مفتاح لزيادة احتمال اكتشاف المسارات الصحيحة التالية.
3. هدف تحسين مزدوج يُفصل بين تعلم السياسة العالمية عن التحديثات التصحيحية المحلية.
أظهرت التجارب على معايير التفكير الرياضي أن الطريقة الجديدة تتفوق باستمرار على GRPO والطرق القائمة على الأشجار وغيرها من الأساليب القوية. لتفاصيل أكثر ولتحميل الشيفرة، يمكنك زيارة [رابط الشيفرة].
استكشاف عميق وذكي لزيادة أداء نماذج اللغة من خلال إعادة أخذ العينات محورية!
تقدم الباحثون استراتيجية جديدة تُعرف بـ Deep Dense Exploration (DDE) لتحسين استكشاف نماذج اللغة الكبيرة. تركز هذه الاستراتيجية على تعزيز فعالية التعلم من خلال إعادة أخذ العينات من الحالات الحيوية ضمن المسارات غير الناجحة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
