في عالم الذكاء الاصطناعي، يمثل التنسيق بين النماذج اللغوية الكبيرة (Large Language Models) تحدياً كبيراً. وقد أعلن الباحثون مؤخراً عن DPBench، وهي أداة جديدة تُستخدم كتقييم لتنسيق أنظمة متعددة الوكلاء، حيث تمثل هذه الأداة تطوراً مهماً في دراسة الشروط التي تؤثر على نجاح التنسيق.

يقوم DPBench بتطبيق مفهوم "فلاسفة العشاء" (Dining Philosophers) في بيئة اختبار مسيطرة، حيث يتم تغيير بروتوكولات الأعمال، وتراكيب التواصل، وأحجام المجموعات بشكل مستقل. وقد قمنا بتقييم ستة وكلاء مختلفين، تشمل GPT-5.2 وClaude Opus 4.5 وGrok 4.1 وGemini 2.5 Flash وLlama 4 Maverick، بالإضافة إلى قاعدة عشوائية.

أظهرت النتائج مدى تعقيد التنسيق في حالات العمل simultaneouly، حيث تراوحت معدلات الجمود (Deadlock) من 25.0% لوكيل GPT-5.2 إلى 90.0% لوكيل Gemini 2.5 Flash. وقد اتضح أن ثلاثة متغيرات بروتوكول يمكن أن تؤثر بشكل كبير على معدلات الجمود، بدءًا من زيادة التواصل القبلي إلى ضعف حجم المجموعة.

يمكن القول إن التنسيق الفعال يعتمد على البروتوكول المستخدم بدلاً من قدرات النموذج نفسه. هل ستمكن هذه الأداة من إحداث ثورة في فهم كيفية تحسين التنسيق بين الوكلاء؟

انتظروا المزيد من التحديثات حول هذه الأداة المثيرة والتطورات المستقبلية في هذا المجال.