في عالم الذكاء الاصطناعي، تعتبر تقنيات التعلم المعزز (Reinforcement Learning) من الأدوات الأكثر إثارة للاهتمام. ومن خلال إحدى هذه التقنيات، وهي التعلم المعزز مع المكافآت القابلة للتحقق (RLVR)، تم الكشف عن آلية جديدة لتنويع مسارات التفكير وتحسين أداء النماذج.

تعمل هذه التقنية على تدريب نماذج التفكير دون الحاجة إلى مسارات معلمة مسبقًا، حيث تستخدم تجميعات من العمليات الاستكشافية لتعرض السياسة لمسارات تفكير بديلة وتستعين بمحقق لتقييمها. تقول الأبحاث أن تنوع العمليات الاستكشافية يمثل أحد التحديات الرئيسية في هذا السياق.

بدلًا من الطرق التقليدية التي تعتمد على تعديل درجات الحرارة أو اختيارات العمليات، تم اكتشاف موقع مميز ولكنه مهملاً في تعزيز هذا التنوع: الرمز الأول بعد علامة التفكير. تكشف توزيعات الرموز الأولى عن ظاهرة مرتبطة ارتباطًا وثيقًا لكنها غير مرئية من حيث دقة النتائج. هذا الموقع الاستراتيجي يمكن أن يعزز المناطق التي تغطيها مجموعة العمليات الاستكشافية دون تغيير إشارات الصحة.

تقديم تقنية REFT (استكشاف العمليات مع تنويع الرمز الأول) يمثل إضافة خفيفة إلى خط أنابيب RLVR، حيث يتم أخذ الرموز الأولى من أفضل N مرشحين للسياسة، وتوزيع العمليات بالتساوي مع ترك كل مكون آخر دون تغيير.

عند تدريب REFT على العمليات المتنوعة الناتجة، أظهرت النتائج تحسنًا في مؤشرات Pass@1 وPass@8 وPass@64 مقارنة بأساليب DAPO وGRPO عبر أربعة نماذج أساسية وبثلاثة مستويات من الصعوبة. إن هذه الإنجازات تفتح آفاقًا جديدة لأبحاث الذكاء الاصطناعي وتؤكد على أهمية الاستكشاف والتنوع في عملية التعلم.