تسعى الأنظمة متعددة الوكلاء التي تعتمد على نماذج لغوية ضخمة (Large Language Models) إلى تعزيز التعاون والتنسيق بين عدة نماذج يتنوع أداؤها. ولكن، كانت التحديات تواجه هذه الأنظمة بسبب قصور وحدات التحكم الحالية التي تعتمد فقط على التوجيه الاحادي لمرة واحدة، حيث تقوم باختيار نموذج معين مرة واحدة ثم تستخرج مخرجاته. هذا التصميم يفتقر إلى القدرة على مراجعة النتائج الأولية أو دعم تطويرها بشكل تكراري.

لذلك، قدم الباحثون في دراسة حديثة آلية جديدة تسمى "وحدة التحكم النقدية والتوجيهية"، التي تعتبر التعاون بين الوكلاء المتعددين كمسألة قرار تسلسلي. حيث يقوم النظام في كل خطوة بتقييم المسودة الحالية، ثم يقرر ما إذا كان يجب التوقف أو الاستمرار، وفي حال كان هناك حاجة لمزيد من التحسين، يتم اختيار وكيل آخر للقيام بهذه المهمة.

لقد صُغت هذه العملية كأحد نماذج اتخاذ القرار المحسوبة (Markov Decision Process) مع قيود واضحة على استخدام الوكلاء، وتم تصميم مكافآت مركبة تدعم قرارات وحدة التحكم خلال كل دورة من مراحل العمل، مع تحسين هذه الوحدة عبر خوارزميات تدرج السياسات.

عبر تجارب واسعة النطاق على أنظمة متعددة الوكلاء التي تتنوع نماذجها، وسبعة معايير لتقييم الأداء، أثبتت هذه الطريقة تفوقها الدائم على أفضل المعايير الحالية، مما قلل بشكل كبير الفجوة بين الأداء وأقوى الوكلاء في الوقت ذاته، مع استخدامها لأقل من 25% من الاتصال الكلي.