في السنوات الأخيرة، أصبحت [وكالات [نماذج](/tag/نماذج) اللغة](/tag/[وكالات](/tag/وكالات)-[نماذج](/tag/نماذج)-[اللغة](/tag/اللغة)) الكبيرة (Large Language [Model](/tag/model) Agents) تلعب دورًا مهمًا في التعامل مع الأكواد، المتصفحات، [أنظمة](/tag/أنظمة) التشغيل، التقويمات، والملفات. ومع ذلك، فإن [التقييمات](/tag/التقييمات) الحالية لهذه الوكالات تظهر تباينًا كبيرًا في الطريقة التي تقيم بها الأداء، حيث تركز كل منها على وحدة [قياس](/tag/قياس) مختلفة. من [نجاح](/tag/نجاح) المهمة النهائية إلى صلاحية استدعاء [الأدوات](/tag/الأدوات) والاتساق، كانت [المعايير](/tag/المعايير) غير متسقة على الإطلاق.
في عامي 2024 و2025، أصبح هناك [توافق](/tag/توافق) على أن عمود [الدقة](/tag/الدقة) الواحد لم يعد المناسب لمقارنة الوكالات القابلة للتطبيق. هنا يأتي دور '[AgentAtlas](/tag/agentatlas)'، الذي يوسع هذا المسار من العمل من خلال تقديم أربعة مكونات رئيسية:
1. **نظام [تقييم](/tag/تقييم) بثلاث خطوات للقرارات**: يشمل ست حالات ([تفاعل](/tag/تفاعل) / سؤال / [رفض](/tag/رفض) / توقف / تأكيد / استعادة) لقياس القرارات التي تتخذها الوكالات.
2. **تصنيف لفشل المسار**: يتضمن تصنيفًا من تسعة فئات يحمل تسميتين هيراركيتين (مصدر الخطأ الرئيسي، التأثير) لتحديد مواطن ضعف الوكالات.
3. **منهجية تدرك مقارنة التصنيفات**: تقيس كيف أن قدرات النموذج المرتبطة تأتي من الإشراف الوارد في النص.
4. **تدقيق تغطية المعايير**: يقيم خمسة عشر معيارًا للوكالة مقارنةً بستة محاور سلوكية.
لتوضيح هذه المنهجية، أجرينا تجربة صغيرة باستخدام مجموعة ثمانية [نماذج](/tag/نماذج) ثابتة وولدنا 1,342 عنصرًا تحت نوعين من أوضاع الإعداد. وجدت النتائج أن إزالة قائمة التسميات تؤدي إلى انخفاض [دقة](/tag/دقة) المسار لكل [نموذج](/tag/نموذج) بنسبة تتراوح بين 14 إلى 40 نقطة مئوية.
تُعتبر هذه [التجربة](/tag/التجربة) بمثابة عرض لأسلوب [القياس](/tag/القياس) وليس إصدار [معيار جديد](/tag/معيار-[جديد](/tag/جديد)). مما يجعلنا نتساءل: هل حان الوقت لإعادة النظر في كيفية [تقييم أداء](/tag/[تقييم](/tag/تقييم)-[أداء](/tag/أداء)) [وكالات الذكاء الاصطناعي](/tag/[وكالات](/tag/وكالات)-الذكاء-الاصطناعي)؟ ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات)!
AgentAtlas: ثورة معايير تقييم وكالات نماذج اللغة الكبيرة
في عالم الذكاء الاصطناعي، تقدمت وكالات نماذج اللغة الكبيرة لتعمل على مجموعة متنوعة من المنصات، لكن تقييم أدائها كان غير متسق. تقدم AgentAtlas نظامًا فريدًا وفئات جديدة لتحسين معايير التقييم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
