حظيت نماذج اللغة الكبيرة (Large Language Models) بوقت كبير من النجاح في أداء مهام التفكير المعقد، حيث ظهرت تقنية التعلم المعزز تحت المكافآت القابلة للتحقق (Reinforcement Learning under Verifiable Rewards - RLVR) كإطار عمل موثوق لتحقيق توافق بين سلوك النموذج وسلاسل التفكير. لكن، على الرغم من وعودها، لا تزال RLVR تتطلب موارد كثيفة بشكل غير مقبول، مما يستلزم إشارات مكافأة شاملة وتكاليف عالية أثناء التدريب.

لذا، قدم الباحثون دراسة جديدة تتناول السؤال الرئيسي حول كفاءة البيانات والحساب في RLVR. قاموا أولاً بتحديد حد أدنى نظري لتعقيد العينات الضرورية لإطلاق العنان لقدرات التفكير، وأكدوا تجريبياً أنه يمكن تحقيق أداء قوي باستخدام عدد قليل بشكل مثير للدهشة من حالات التدريب.

لمعالجة العبء الحاسوبي، اقترحوا استراتيجية جديدة تُعرف باسم Refinement الديناميكي للسياسة الواحدة (Dynamic One-Shot Policy Refinement - DoPR)، وهي استراتيجية تعتمد على التعلم المعزز تعتمد على الوعي بالعدم، حيث تختار ديناميكياً عينة تدريبية واحدة مفيدة لكل دفعة من تحديثات السياسة، مسترشدة بتقلب المكافآت وزيادة الاستكشاف.

تخفض DoPR تكاليف التشغيل بنحو عشرة أضعاف مع المحافظة على دقة تفكير تنافسية، مما يوفر حلاً مواردا فعالاً وقابلاً للتوسع لتدريب نماذج اللغة الكبيرة بعد التدريب.

تفتح هذه الاستراتيجية طريقاً عملياً نحو تدريب أكثر فعالية وسهولة على التطبيقات التي تتطلب تفكيراً عميقاً باستخدام التعلم المعزز.