في عالم يتزايد فيه الاستعانة بالنماذج اللغوية الضخمة (Large Language Models) لتعزيز عمليات الاستدلال، تظهر أهمية تقييم الخطوات الوسيطة لهذه النماذج. ومع أن نماذج مكافأة العمليات (Process Reward Models) تقدم إشرافاً خطوة بخطوة، إلا أنها تعاني غالباً من تأثير تعويض المخاطر، حيث يتم تعويض الخطوات غير الصحيحة بخطوات صحيحة لاحقة، مما يؤدي إلى منح مكافآت عالية للمسارات الإبداعية المعيبة.

تتفاقم هذه المشكلة بشكل أكبر في استنتاجات الرسوم البيانية لمعرفة (Knowledge Graphs)، حيث قد توجد مسارات متعددة بين الكيانات الأصلية والنهائية. في هذه النقاط، يمكن أن تؤدي خطوة محفوفة بالمخاطر إلى التسبب بعيوب في مسار الاستنتاج. هذه القيود تمثل تحدياً كبيراً خاصة في المهام الحساسة مثل استنتاجات المعرفة في مجالات الطب والقانون.

لمعالجة هذه القضايا، يقترح الباحثون نموذج مكافأة العمليات التراكمية المدرك للرسم البياني (SCPRM)، الذي يقيم مسارات الاستنتاج من خلال الاعتماد على مقدمة الاستنتاج، ويأخذ في الحسبان المسافة بين خطوة الاستنتاج الحالية والهدف الضمني المقتبس من الاستعلام. يتيح هذا النموذج تحقيق مكافآت تراكمية ومستقبلية توجيه استكشاف المسارات.

بالإضافة إلى ذلك، يدمج النموذج مع خوارزمية بحث شجرة مونت كارلو (Monte Carlo Tree Search - MCTS) تحت مسمى SCPRM-MCTS، مما يمكن من إجراء استنتاجات متعددة الخطوات على الرسوم البيانية للمعرفة لعمليات الإجابة عن الأسئلة. وبفضل SCPRM-MCTS، تحسنت مؤشرات الأداء في مهام استنتاج المعرفة الطبية والقانونية بمتوسط 1.18% مقارنة بالمعايير القوية، مما يدل على تقييم أكثر دقة وحساسية للمخاطر.