في عالم الذكاء الاصطناعي، أصبح التعلم المعزز مع المكافآت القابلة للتحقق (Reinforcement Learning with Verifiable Rewards - RLVR) هو المفتاح لفهم الاستدلال المعقد في النماذج اللغوية الكبيرة (Large Language Models). ومع ذلك، تواجه التقنيات الحالية، والتي تعتمد على تحسين السياسات النسبية الجماعية (Group Relative Policy Optimization - GRPOتحديات صعبة تتعلق بمخرجات مكافآت ثنائية متكررة، مما قد يؤدي إلى انهيار ميزة الصفر (Zero-Advantage Collapse) (حيث تتشارك جميع المخرجات في مجموعة واحدة نفس النتيجة)، أو وهم اليقين (Hallucinated Certainty) (عندما يصبح النموذج مفرط الثقة في مخرجات خاطئة خلال المرحلة النهائية من التدريب).

لتجاوز هذه العقبات، يقدّم الباحثون تقنية جديدة تُدعى تحسين سياسة الإشارة الداخلية (Intrinsic Signal Policy Optimization - ISPO)، التي تعزز المكافأة من خلال دمج إشارات داخلية مستمدة بالكامل من احتمالات السياسة الخاصة. تدمج هذه التقنية الإشارات على مستوى التسلسل التي تقيس مدى أهمية مسار التفكير في الوصول إلى الإجابة النهائية، مع مكافأة توجيهية تعتمد على مستوى الرموز لتعزيز التنبؤات الصحيحة وتقليل الثقة في الإجابات الخاطئة.

تم اختبار هذا النظام على ثلاثة نماذج أساسية وخمسة معايير استدلال رياضي، وأثبتت النتائج أن ISPO تتفوق باستمرار على الأساليب التقليدية، خاصة في الاحتياجات الأكثر تعقيدًا حيث يظهر انهيار الميزة الصفرية بشكل أكبر. تظهر التشخيصات الديناميكية للتدريب أيضًا انخفاضًا في كلا وضعي الفشل، مما يُظهر القدرات الكبيرة لهذه التقنية الجديدة في تطوير الذكاء الاصطناعي.