في عالم الذكاء الاصطناعي المتنامي، يعتبر تنسيق الوكلاء (Agent Coordination) عنصراً أساسياً في تحقيق النجاح لأي فريق يعمل على مهمة معقدة. ومع ذلك، غالباً ما يتم تحديد الأدوار من خلال النداءات (Prompts) بدلاً من التحكم الفعلي، مما يؤدي إلى نتائج قد تكون مضللة. هنا يظهر الابتكار الجديد: TeamBench.

يعتبر TeamBench معياراً متميزاً يضم 851 نموذج مهمة و931 حالة تم توفيرها، تم تصميمه خصيصاً لتقييم تنسيق الوكلاء تحت فصل الأدوار الذي يفرضه نظام التشغيل (Operating System-enforced Role Separation). يعزز TeamBench من الفصل الدقيق بين أدوار المخطط (Planner)، المنفذ (Executor)، والمحقق (Verifier)، مما يضمن أن كل دور لا يستطيع قراءة المتطلبات بالكامل أو تعديل المساحة العمل أو اعتماد الإجابات النهائية.

وقد أظهرت النتائج أن الفرق التي تعمل فقط وفقاً للنداء تصل إلى معدلات نجاح مشابهة لتلك التي تعمل تحت الفصل الصارم، لكن النماذج التي تعتمد على النداءات تنتج 3.6 مرات أكثر من الحالات التي يحاول فيها المحقق تعديل كود المنفذ. كما أظهرت الأبحاث أن المحققين يوافقون على 49% من التقديمات التي تفشل في الاختبار الحتمي، مما يبقي الغموض حول فعالية عمل الفرق.

علاوة على ذلك، تُشير النتائج إلى أن قيمة الفرق مشروطة. أي أن الفرق تنجح عندما تكافح الوكلاء المنفردين، ولكنها تعاني حينما يتمكن وكيل واحد من الأداء الجيد بالفعل.

أجريت دراسة ميدانية على البشر تتضمن 40 جلسة تحت نفس الفصل، وكشفت عن أن معيار TeamBench يكشف عن أنماط التفاعل التي تغفلها معدلات النجاح. المشاركون المنفردون يتعاملون مباشرة مع المهمة، بينما يميل المشاركون البشريون المتعاونون مع الوكلاء إلى الموافقة السريعة، بينما يقضي فرق البشر مزيداً من الوقت في تنسيق المعلومات المفقودة عبر الأدوار.

يمثل TeamBench خطوة رائدة نحو تحسين فهمنا لكيفية عمل الوكلاء معاً، مما يمهد الطريق لتطوير فرق أكثر كفاءة. والذي يتطلب منا الآن أن نعيد النظر في كيفية تقييم الأداء في بيئات الذكاء الاصطناعي.