في ظل التطورات المستمرة في مجالات الذكاء الاصطناعي، تواجه نماذج التعلم المعزز مع تحديات جديدة تتعلق بمكافآت قابلة للتحقق (Verified Rewards). يهدف التعلم المعزز بمكافآت قابلة للتحقق (RLVR) إلى تحسين التفكير والسلوك الذاتي في نماذج اللغة الكبيرة. ومع ذلك، غالبًا ما تقيد عمليات تحسين السياسات كثيفة العمليات بسبب ضعف التباين في المكافآت، والذي ينشأ عندما تنتج التعليمات البسيطة أو المعقدة ردودًا منخفضة التباين.
تناولت الجهود السابقة إمكانية تخصيص الموارد المتاحة لعمليات التنفيذ (Rollout) للتعليمات الواعدة، لكنها كانت تركز فقط على مستويات المعلوماتية عند مستوى التعليمات، دون الأخذ بعين الاعتبار التباين في المعلوماتية على مستوى التعليمات المتعاقبة خلال نفس عملية التنفيذ.
لكن البحث الجديد يقدم لنا حلاً مثيرًا للإعجاب من خلال نموذج يتعامل مع كل دورة تفكير-عمل-ملاحظة على أنها نقطة متميزة، مما يتيح تخصيص الميزانية للتفرعات والجذور المناسبة للتعليمات. وهذا النموذج الجديد، المُسمى TRACE (تخصيص عمليات الشجرة للت exploration التبايني) يقدم إطارًا موحدًا يسمح بتحسين المكافآت ضمن ميزانية ثابتة.
تقوم TRACE بتخصيص الميزانية إلى كل من جذور التعليمات والتفرعات الوسطية التي من المرجح أن تحقق مكافآت نهائية مختلطة. يستخدم نموذج تنبؤي عام تقديري لتقييم النجاح الشرطي في هذه النقاط من خلال تاريخ التفرعات السابقة، مما يساعد في توجيه عملية التخصيص. البنية الشجرية الناتجة تعزز من تعليقات النتائج فقط وتزيد من إشارات تحديث السياسات.
أظهرت التجارب أن TRACE تحقق أداءً تنافسيًا وكفاءات محسّنة على المعايير النموذجية، حيث زادت دقة النموذج Qwen3-14B متوسط الدرجات بمقدار 2.8 نقطة مقارنةً بأساليب مرجعية أخرى مع تكاليف متساوية في العينة. إن هذه الابتكارات تعكس مزيدًا من التقدم في جهود تعزيز فعالية النماذج اللغوية الكبيرة وتفتح الأفق لمزيد من التطورات في مجال الذكاء الاصطناعي.
⏱ 2 دقائق للقراءة👁 0 مشاهدة
فلسفة TRACE: إطار موحد لتخصيص ميزانية عمليات التعلم المعزز لرفع كفاءة نماذج الذكاء الاصطناعي
تقدم TRACE نهجًا مبتكرًا لتحسين التعلم المعزز من خلال تخصيص ميزانية العمليات بكفاءة. هذه الاستراتيجية تسهم في تعزيز سلوك النماذج اللغوية وتحسين أدائها في مهام متعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
