في عصر الذكاء الاصطناعي، تحتاج الأنظمة متعددة الوكلاء (Multi-Agent Systems) المبنية على نماذج اللغة الكبيرة (Large Language Models) إلى تنسيق فعال لإدارة الوكلاء المتخصصين. ومع ذلك، يواجه تدريب هذه الأنظمة تحديات كبيرة نتيجة للإشراف المحدود والتكاليف الحسابية العالية. هنا يأتي دور نموذج مكافأة التنسيق (Orchestration Reward Modeling - OrchRM)، الذي يُعد إطارًا ذاتيًا لتقييم جودة التنسيق بدون الحاجة إلى تعليقات بشرية.

يعتمد نموذج OrchRM على استغلال المواد الوسيطة الناتجة عن تنفيذ الوكلاء المتعددين لبناء أزواج من النتائج المتعارضة (win-lose pairs) التي تُستخدم لتدريب نموذج مكافأة برايدلي-تيري (Bradley-Terry). على عكس الأطر الحالية التي تعتمد على إجراء اختبارات مكلفة للوكلاء الجزئيين، يعمل OrchRM مباشرة على مستوى التنسيق، مما يسمح بتدريب فعّال ومرتفع الأداء للموجهين في الأنظمة متعددة الوكلاء.

تظهر النتائج أن استخدام OrchRM يُمكن أن يحسن كفاءة التدريب حتى عشر مرات في استخدام الرموز، كما يُحسن أداء الأنظمة في وقت الاختبار بنسبة تصل إلى 8% في الدقة. تدل هذه التحسينات على إمكانية نقلها عبر مجالات متعددة، بما في ذلك التفكير الرياضي، والإجابة على الأسئلة عبر الإنترنت، والتفكير متعدد الخطوات، مما يدل على أن نموذج المكافأة على مستوى التنسيق هو اتجاه قابل للتوسع نحو إدارة قوية للأنظمة متعددة الوكلاء.

لمزيد من التفاصيل، يمكنكم الاطلاع على الشيفرة المصدرية المتاحة على https://github.com/Wang-[ML-Lab/OrchRM]. ما رأيكم في هذه الابتكارات في مجال الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!