مع ظهور نماذج اللغات الضخمة (LLMs)، شهدت الوكلاء العامون تقدماً ملحوظاً في تحسين الأداء والقدرات. إلا أن تقييم هذه الوكلاء يطرح تحديات خاصة تميزهم عن المعايير التقليدية للاختبار. في الواقع، نلاحظ أن المعايير الحالية لتقييم الوكلاء تواجه العديد من العوائق نتيجة لعوامل غير محددة، مثل توجيهات النظام (system prompts)، تكوينات أدوات العمل، والديناميات البيئية.

تستخدم التقييمات القائمة حالياً أطر غير متصلة، مما يجعل من الصعب تحديد مكاسب الأداء وتقديم تقييمات دقيقة. كما أن نقص البيانات البيئية القياسية يؤدي إلى أخطاء يصعب تتبعها ونتائج غير قابلة للتكرار، مما يزيد من عدم العدالة والشفافية في هذا المجال.

لذلك، نوصي بضرورة وجود إطار تقييم موحد لتعزيز تطوير الوكلاء بشكل صارم. إن الهدف هو تسهيل عملية التقييم وضمان دقة النتائج، مما سيسهم في تحقيق تقدم كبير في تطبيقات الذكاء الاصطناعي.