في عالم يهيمن عليه الذكاء الاصطناعي، تبرز الحاجة الملحة لتحسين أداء وكلاء النماذج اللغوية الكبرى (Large Language Models). وها هي ToolMenuBench تقدم لنا بروفة جديدة نحو تحقيق ذلك! تهدف هذه الأداة القياسية إلى فحص استراتيجيات تصفية قوائم الأدوات التي تستخدمها الوكلاء الذكيون، وهي تتجاوز التقييم التقليدي الذي يركز على قدرة النموذج على استخدام الأداة بشكل صحيح فقط.
تم تصميم ToolMenuBench لتقييم بناء قوائم الأدوات في الوكلاء الذين يعتمدون على خطوات متعددة، وتمتاز بتنوعها في حجم القوائم، أنواع المشتتات، هيكل المهام المعتمد على الحالة، ومستوى تعرض المخاطر. وبفضل هذا التنوع، توفر الأداة تقارير شاملة تعكس مقاييس متعددة مثل عدد الأدوات المرئية، تعرض الأدوات المحفوفة بالمخاطر، نجاح المهام، المكالمات غير الصحيحة للأدوات، والإجراءات المبكرة!
أظهرت نتائج تقييم شامل على سبعة نماذج، وثلاثة أحجام لقوائم الأدوات، وستة طرق لتصفية القوائم، أن استخدام تصفية الأدوات الحدسية (CMTF) استطاع أن يحسن معدل نجاح المهام من 32.1% (مع تعرض لكل الأدوات) إلى 85.7%، مع تقليل متوسط استخدام الرموز بنحو 98%.
ما يميز ToolMenuBench هو قدرتها على تزويد باحثي الذكاء الاصطناعي بإطار تقييم قابل للاستخدام لفهم مشاكل التفاعل بين الوكيل والواجهة، بما يتضمن ما هي الأدوات التي يجب أن تكون مرئية، ومتى يجب أن تظهر، وما هي قيود التكاليف أو المخاطر التي يجب مراعاتها.
إن ToolMenuBench تمثل خطوة مهمة نحو تحسين موثوقية وكفاءة وكلاء النماذج اللغوية الكبيرة. كيف ترى تأثير هذه الأداة الجديدة على مستقبل الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!
ToolMenuBench: ثورة في استراتيجيات تصفية قوائم الأدوات للذكاء الاصطناعي!
مؤخراً تم إطلاق ToolMenuBench كأداة قياس جديدة تهدف إلى تحسين أداء وكلاء النماذج اللغوية الكبرى (LLM). تتناول هذه الأداة كيفية تأثير قوائم الأدوات على موثوقية وكفاءة الأتمتة الذكية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
