في السنوات الأخيرة، أصبحت [وكالات [نماذج](/tag/نماذج) اللغة](/tag/[وكالات](/tag/وكالات)-[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) الكبيرة (Large Language [Model](/tag/model) Agents) تلعب دورًا مهمًا في التعامل مع الأكواد، المتصفحات، [أنظمة](/tag/أنظمة) التشغيل، التقويمات، والملفات. ومع ذلك، فإن [التقييمات](/tag/التقييمات) الحالية لهذه الوكالات تظهر تباينًا كبيرًا في الطريقة التي تقيم بها الأداء، حيث تركز كل منها على وحدة [قياس](/tag/قياس) مختلفة. من [نجاح](/tag/نجاح) المهمة النهائية إلى صلاحية استدعاء [الأدوات](/tag/الأدوات) والاتساق، كانت [المعايير](/tag/المعايير) غير متسقة على الإطلاق.

في عامي 2024 و2025، أصبح هناك [توافق](/tag/توافق) على أن عمود [الدقة](/tag/الدقة) الواحد لم يعد المناسب لمقارنة الوكالات القابلة للتطبيق. هنا يأتي دور '[AgentAtlas](/tag/agentatlas)'، الذي يوسع هذا المسار من العمل من خلال تقديم أربعة مكونات رئيسية:

1. **نظام [تقييم](/tag/تقييم) بثلاث خطوات للقرارات**: يشمل ست حالات ([تفاعل](/tag/تفاعل) / سؤال / [رفض](/tag/رفض) / توقف / تأكيد / استعادة) لقياس القرارات التي تتخذها الوكالات.
2. **تصنيف لفشل المسار**: يتضمن تصنيفًا من تسعة فئات يحمل تسميتين هيراركيتين (مصدر الخطأ الرئيسي، التأثير) لتحديد مواطن ضعف الوكالات.
3. **منهجية تدرك مقارنة التصنيفات**: تقيس كيف أن قدرات النموذج المرتبطة تأتي من الإشراف الوارد في النص.
4. **تدقيق تغطية المعايير**: يقيم خمسة عشر معيارًا للوكالة مقارنةً بستة محاور سلوكية.

لتوضيح هذه المنهجية، أجرينا تجربة صغيرة باستخدام مجموعة ثمانية [نماذج](/tag/نماذج) ثابتة وولدنا 1,342 عنصرًا تحت نوعين من أوضاع الإعداد. وجدت النتائج أن إزالة قائمة التسميات تؤدي إلى انخفاض [دقة](/tag/دقة) المسار لكل [نموذج](/tag/نموذج) بنسبة تتراوح بين 14 إلى 40 نقطة مئوية.

تُعتبر هذه [التجربة](/tag/التجربة) بمثابة عرض لأسلوب [القياس](/tag/القياس) وليس إصدار [معيار جديد](/tag/معيار-[جديد](/tag/جديد)). مما يجعلنا نتساءل: هل حان الوقت لإعادة النظر في كيفية [تقييم أداء](/tag/[تقييم](/tag/تقييم)-[أداء](/tag/أداء)) [وكالات الذكاء الاصطناعي](/tag/[وكالات](/tag/وكالات)-الذكاء-الاصطناعي)؟ ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!