في عالم الذكاء الاصطناعي، تلعب نماذج المكافأة (Reward Models) دورًا حاسمًا في توجيه النماذج نحو السلوك المنشود. ومع التطورات الأخيرة في أنظمة نماذج اللغات الضخمة (Large Language Models)، بدأت هذه النماذج تتطور لتصبح أنظمة وكيلة قادرة على استدعاء الأدوات بشكل مستقل والتفكير بشكل معقد. ولكن علينا الاعتراف أن هذا التحول يأتي مع تحديات جديدة، وأحد أبرزها هو الافتقار إلى المعايير المناسبة لتقييم قدرات نماذج المكافأة في البيئات المعقدة المزودة بالأدوات.

لذلك، تم تقديم Plan-RewardBench، وهو معيار يركز على تقييم التفضيلات المتعلقة بالمسارات. يهدف هذا المعيار إلى قياس قدرة القضاة على تمييز المسارات المفضلة بين الوكلاء في سيناريوهات الاستخدام المعقد. يعالج هذا المعيار أربع عائلات من المهام: (1) رفض الأمان، (2) عدم ملاءمة الأدوات/عدم التوفر، (3) التخطيط المعقد، و(4) استرداد الأخطاء بشكل موثوق.

تم تطوير مسارات إيجابية موثوقة ومسارات صعبة من خلال عمليات متعددة النماذج، وتعديلات قائمة على القواعد، وتعديلات بسيطة لنماذج اللغات الكبيرة. تم تقييم نماذج المكافأة المختلفة (كالمولدات، والمميزين، وLLM كقاضي) من خلال برتوكول موحد. وظهرت النتائج أن جميع العائلات الثلاث من المقيمين تواجه تحديات كبيرة، حيث تنخفض الأداء بشكل حاد مع زيادة طول المسارات، مما يبرز الحاجة إلى تدريب متخصص في نمذجة المكافأة على مستوى المسار.

بشكل عام، يهدف Plan-RewardBench ليكون مجموعة تقييم عملية ونسخة قابلة لإعادة الاستخدام لبناء بيانات تفضيل التخطيط الوكيل.