في عصر تكنولوجيا الذكاء الاصطناعي، تتزايد التساؤلات حول فعالية إضافة المزيد من العملاء (agents) في تحسين سير العمل لنماذج اللغات الضخمة (Large Language Models). هل يمكن للمزيد من العملاء أن يقدموا بالفعل تحسينات ملحوظة في الأداء، أم أن النتيجة ستكون عكسية؟

تحت عنوان "BenchAgent"، تم تقديم إطار تقييم مبتكر يمكن من خلاله اختبار سير العمل في أنظمة متعددة العملاء. يتناول هذا التطبيق كيفية أداء أنظمة مختلفة، مثل الأنظمة أحادية العميل، والأنظمة المتعددة العملاء الثابتة، بالإضافة إلى الأنظمة المتطورة، في ظروف متساوية من حيث الأداء والتسجيل.

من خلال إجراء اختبارات عبر عشرة معايير تتعلق بأداء التفكير والترميز واستخدام الأدوات، تم استخدام نموذج GPT-4.1 كمعيار قياسي. النتائج أظهرت أن معظم الأنظمة المتعددة العملاء لم تستطيع التفوق على الأداء المتوسط للنموذج الأحادي، خاصة في الحالات التي تم فيها تقيم الأداء بشكل متوازن.

على الرغم من ذلك، كان هناك نظام واحد، يُعرف بـ EvoAgent، تمكن من تحقيق نتائج قريبة من العتبة المحددة مسبقًا، في حين أن الخمسة الباقين واجهوا تراجعًا واضحًا ، مع خسائر تتراوح بين 2.56 إلى 11.29 نقطة ومقايضات تكاليف دقة أعلى.

لكن الأحداث لم تنتهي هنا، ففي دراسة موازية (PAE GAIA)، تم استخدام سير عمل ديناميكي على نمط Claude-Code، وقد حقق هذا النظام نسبة 66.72% كأداء إجمالي و69.23% في المستوى الثالث، وهو ما يتجاوز بفارق 20 نقطة الأداء الأقوى للنموذج الثابت Jarvis.

إن تحليل هذه النتائج يقدم إشارات قوية حول كيفية توجيه جهود التطوير في مجالات الذكاء الاصطناعي، ويفتح المجال لتساؤلات عديدة حول فعالية الاختلافات في توزيع العمل بين الأنظمة المختلفة.

هل تعتقد أن إضافة المزيد من العملاء تزال لها قيمة مضافة في تحسين سير العمل، أم أن كفاءة العمل مع عميل واحد تكون أفضل؟ شاركونا آراءكم في التعليقات.