مع تقدم أنظمة الذكاء الاصطناعي متعددة العملاء (Multi-agent systems) نحو تحقيق نتائج مذهلة من خلال التعاون بين الأقران، تواجه هذه الأنظمة تحديات ملحوظة عندما يتعلق الأمر بالتأكد من موثوقية نتائجها. فقد أظهرت الأبحاث الأخيرة أن هناك حالات يحدث فيها فقدان صامت للقيود أثناء التعاون، مما يؤثر سلبًا على سلسلة التفكير بشكل قد يبدو صحيحًا للوهلة الأولى رغم أنه تم تدميره في الحقيقة.

لإلقاء الضوء على هذه الثغرات، تم تطوير أداة جديدة تُدعى AgentCollabBench، وهي معيار تشخيصي يتضمن 900 مهمة تم التحقق من صحتها بواسطة البشر، تمتد عبر مجالات الهندسة البرمجية (Software Engineering) وإدارة العمليات (DevOps) وهندسة البيانات (Data Engineering). هذه المهام تهدف إلى عزل واحدة من أربعة مخاطر سلوكية:
1. تآكل التعليمات (Instruction Decay): هل تبقى القيود تحت ضغط الأقران؟
2. عدوى المعتقدات الزائفة (False-belief Contagion): هل تنتشر الأكاذيب من خلال الإجماع؟
3. تسرب السياق (Context Leakage): هل تتسرب المعلومات بين المهام؟
4. متانة المسار (Tracer Durability): هل تصل البيانات المعلمة إلى العميل النهائي؟

في تقييم لأربعة نماذج لغوية حديثة (GPT 4.1 mini، Gemini 2.5 Flash Lite، Qwen-3.5-35B-A3B، وLlama 3.1 8B Instruct)، تم الكشف عن ملفات تعريف ضعافية خاصة بالنموذج لا يمكن اكتشافها عبر التقييم القائم على النتائج فقط. على سبيل المثال، تبرز Qwen-3.5-35B-A3B في القدرة على الحفاظ على المتانة والتحمل، في حين يحتل GPT 4.1 mini الصدارة في احتواء التسرب ومقاومة المعتقدات الزائفة.

علاوة على ذلك، يبرز هيكل التواصل كعامل خطر رئيسي يفسر من 7 إلى 40% من تباين بقاء المعلومات متعددة الحلقات. هذا التأثير يرتبط بعنق الزجاجة الناجم عن تقارب العقد الهرمية، حيث يقوم أحد العملاء بتقييم المدخلات المتنافسة، مما يؤدي إلى تجاهل القيود المضمونة من فرع أقلية، وهي مشكلة هيكلية غائبة عن السلاسل الخطية.

تُظهر AgentCollabBench أن الهيكل التواصلي غير الأمثل يمكن أن يقوم بمسح حواجز الأمان الخاصة بالنماذج القادرة على الأداء العالي، وتسلط الضوء على أن موثوقية التعاون بين العملاء هي في جوهرها مشكلة هيكلية، وأن زيادة ذكاء النموذج وحده لن تكون بديلاً كافيًا عن تحسين البنية المعمارية.