في عالم البرمجيات المتطور، تعد المدققين (Verifiers) أحد العناصر الأساسية لضمان جودة الشفرات البرمجية. ولكن، ما السر وراء نجاح تطبيق تقنيات التعلم التعزيزي مع المكافآت القابلة للتحقق (RLVR) في تدريب المدققين؟

أظهرت الأبحاث الأخيرة وجود فجوة في الاستفادة من هذه التقنية في توليد الأكواد مقارنةً بتنفيذ التغذية الراجعة، مما يجعلها تحديًا حقيقيًا للباحثين. في هذا السياق، تم تقديم منصة جديدة تُدعى أليثيا، والتي تهدف إلى توفير تحليل خالي من التلوث لوصفات تدريب المدققين على نطاقات مختلفة وتحت ظروف متغيرة.

تسلط الدراسة الضوء على ثلاث اختيارات أساسية تؤثر على الأداء وتكاليف استخدام نظام RLVR: تتبع التفكير الوسيط، والتعلم من العينات السلبية، والتدريب وفقًا للسياسة (On-policy Training). وكشفت النتائج عن حقيقة مثيرة للاهتمام؛ حيث يختلف الوصفة المثلى للتدريب من حيث الحجم. ففي الموديلات الصغيرة، يكون التعلم وفقًا للسياسة العامل الرئيسي في تحسين الأداء، بينما يصبح ميزانية التفكير أكثر أهمية في النماذج الأكبر.

وتظهر النتائج أيضًا أن استخدام العينات السلبية يحسن دقة الاختيار، مما يعزز استقرار عملية التدريب في النماذج الأكبر. كما يُظهر التحليل المثالي لمعادلات باريو (Pareto) أن التخلي عن تدريب السياسة في النماذج الكبيرة يمكن أن يُنتج مدققًا يقدم أداءً يتنافس مع نظام RLVR الكامل.

تقدم هذه الدراسة أساسًا تجريبيًا ضروريًا لنشر مدققين موثوقين بكفاءة، مما يمهد الطريق لاعتماد أوسع لهذه الأنظمة في خطوط أنابيب التوليد الكبيرة للبرمجيات.