أحدثت تقنية التعلم المعزز من المكافآت القابلة للتحقق (RLVR) ثورة في قدرات التفكير لنماذج اللغة الكبيرة (LLMs)، لكنها تواجه تحديات بسبب الاعتماد على تعليقات نتائج نادرة. هذا يعتمد على صعوبة نسب الشكر في نتائج طويلة الأمد، حيث يمكن أن تفشل الخيارات رغم اتخاذها قرارات صحيحة على طول الطريق، أو العكس. في دراستنا الجديدة، استعرضنا نوعًا من المشاكل المتعلقة بالتفكير القابل للتحقق بكثافة، حيث يمكن فحص الإجراءات الوسيطة بطريقة موضوعية بواسطة أوركل رمزية أو خوارزمية.

نقدم في هذا البحث نظام مكافآت العملية القابلة للتحقق (VPR)، الذي يحول تلك الأوراكلات إلى إشراف كثيف على مستوى خطوة التعلم لتعزيز التعلم المعزز، ونطبق هذه الطريقة في ثلاثة إعدادات تمثيلية: تحقق قائم على البحث للاستنتاج الديناميكي، تحقق قائم على القيود للتفكير المنطقي، والتحقق القائم على الاحتمالات للاستنتاج الاحتمالي.

قدمنا أيضًا تحليلًا نظريًا يوضح أن المكافآت المستندة إلى المدقق الكثيف يمكن أن تحسن نسبة الائتمان على المدى الطويل من خلال توفير إشارات تعليمية أكثر تحديدًا، بحيث تعتمد الفوائد على موثوقية المدقق. على نحو تجريبي، أثبت نظام VPR تفوقه على طرق المكافأة التقليدية المعتمدة على النتائج في بيئات خاضعة للرقابة، والأهم من ذلك، أنه انتقل بنجاح إلى اختبارات التفكير العام والتفكير العنيد، مما يشير إلى أن الإشراف القابل للتحقق يمكن أن يعزز المهارات الفكرية العامة التي يمكن تطبيقها خارج بيئات التدريب.

تظهر نتائجنا أن نظام VPR يمثل نهجًا واعدًا لتحسين وكالات LLM إذا كانت هناك تحقق موثوق بين الخطوات، لكنه يبرز أيضًا اعتماد النظام على جودة الأوراكل وكذلك التحدي المفتوح لتمديده إلى بيئات أقل تنظيمًا وغير محددة.