في عالم الذكاء الاصطناعي، تبرز تقنيات التعلم المعزز من المكافآت القابلة للتحقق (Reinforcement Learning from Verifiable Rewards - RLVR) كأداة فعالة للغاية لتطوير مهارات التفكير الرياضي لدى نماذج اللغات الضخمة (Large Language Models - LLMs) بناءً على تجربة واحدة فقط. ومع ذلك، تتبنى النماذج الحالية المعتمدة على التعلم المعزز المتقدمة أساليب حدسية لاختيار الأعمال، والتي تعتمد في الغالب على تباين المكافآت التاريخية. وقد تبين أن هذه الطريقة مضللة في قياس قيمة النقل.

لذا، في بحثنا الأخير، نقدم طريقة مبتكرة تعرف باسم المنهج التلقائي المدعوم بالاختيار (Selector-Guided Autonomous Curriculum - SGAC) التي تستخدم نموذج اختيار قابل للتعلم في فضاء ميزات متعدد الأبعاد، يتضمن احتمال النجاح، وتباين المكافآت، واختلاف النواتج (Entropy)، ومستوى الصعوبة الدلالية.

لقد أظهرت تقييماتنا التجريبية على مجموعة من المشاكل المرشحة أن اختلاف النواتج بدلاً من تباين المكافآت يعتبر المؤشر الأقوى على مكاسب التفكير في التكرارات اللاحقة. من خلال الاستفادة من هذه النتيجة، قمنا بتطوير خوارزمية منهج تلقائي لاختيار المشاكل من مجموعة كبيرة من المرشحات، وتصنيفها وفقًا للاختيار المتعلم، وإجراء دفعات صغيرة من التعلم المعزز.

لقد تم تقييم إطار عملنا باستخدام معيار Hendrycks MATH، حيث تم استخدام نموذج Qwen2.5-Math-1.5B كنقطة أساس. وقد حقق إطار عملنا دقة تصل إلى 68.0% على مجموعة البيانات الاحتياطية، متفوقًا على الأداء السابق للنموذج المتقدم الذي بلغ 64.0% وعلى نقطة التحقق في RLVR التي اقترحها Wang وآخرون، والتي حققت دقة 66.0%.

تؤكد النتائج أن عملية انتقاء البيانات الذكية المستندة إلى اختلاف النواتج تؤدي إلى تحسين ملحوظ في التفكير مقارنة بأساليب التدريب الثابتة، خاصة في ظروف البيانات المحدودة بشدة.