تعتبر معايير تقييم التعلم المعزز متعدد الوكلاء (MARL) التقليدية، مثل العائد (return) ومعدل النجاح (success rate) ووقت الإنجاز (completion time)، من الأدوات الأساسية لتحديد فعالية الوكلاء. ولكن، هل تكفي هذه المعايير للإجابة عن كيفية تنسيق الوكلاء في بيئاتهم؟ غالباً ما تفشل هذه المعايير في إظهار الآليات الدقيقة التي يعتمدها الوكلاء للتنسيق، لا سيما في البيئات التي تنمو فيها الحالات بشكل أسي مع زيادة عدد الوكلاء، والمهام، والاختيارات المشتركة.

لذا، نقدم رؤية تقييم قائمة على التنسيق تكمل نتائج الأداء بمؤشرات على مستوى العمليات. وقد رتبت هذه الرؤية باستخدام بيئة اختبار مُحكمة تُدعى STAT، التي تحدد بشكل منهجي المتغيرات مثل عدد الوكلاء، والمهام، وحجم البيئة، مع الحفاظ على إمكانية الوصول إلى الملاحظات وقواعد المهام ثابتة.

قمنا بتقييم ستة أساليب تمثيلية تعتمد على القيمة في التعلم المعزز متعدد الوكلاء عبر مستويات مختلفة من المركزية. وقد أظهرت نتائجنا أن الاتجاهات المشابهة في العائد قد تعكس آليات تنسيق مميزة، بما في ذلك الفروق في التعيينات المتكررة (redundant assignment) وتنوع التعيينات (assignment diversity) وكفاءة إتمام المهام (task-completion efficiency).

وجدنا أنه في تخصيص المهام القائم على الالتزام، يتحدد الأداء تحت الضغط ليس فقط بحجم فضاء العمل الاسمي (nominal action-space size)، ولكن أيضًا بواسطة ضغط التعيين، وفرص اتخاذ القرار النادرة، والاختيارات المتكررة بين الوكلاء المتداخلين. تدفع هذه النتائج باتجاه اعتماد تقييم واعٍ للتنسيق كتكملة ضرورية لتقييم الأداء القائم على العائد في التعلم المعزز متعدد الوكلاء.