🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

CocoaBench: أول مقياس لتقييم الوكلاء الرقميين الموحدين في مواجهة التحديات الحقيقية!

يقدم CocoaBench معيارًا جديدًا لتقييم أداء الوكلاء الرقميين الموحدين في مهمات معقدة تتطلب دمج عدة مهارات. رغم تقدم الوكلاء الحاليين، إلا أنهم لا يزالون في حاجة إلى تحسين كبير، خصوصًا في مجالات التفكير والتخطيط.

في عصر تتزايد فيه أهمية الذكاء الاصطناعي (AI)، برزت الحاجة إلى تقييم فعالية الوكلاء الرقميين بشكل شامل، لا سيما مع ازدهار نماذج اللغات الضخمة (Large Language Models) وتوسيع وظائفها في مجالات متنوعة كالهندسة البرمجية والبحث العميق. ومع ذلك، فإن أكثر التقييمات التي شهدناها حتى الآن كانت تركز على قدرات هذه الوكلاء في عزلة، مما أدى إلى فجوة كبيرة في اختبار أدائها في مواقف تتطلب دمج مهارات متعددة.

ولسد هذه الفجوة، تم تقديم CocoaBench، والذي يمثل معيارًا جديدًا لاختبار الوكلاء الرقميين الموحدين عبر مهام طويلة الأمد من تصميم البشر. هذه المهام ليست مخصصة فقط لأداء تقني معين، بل تتطلب تكوينًا مرنًا للأدوات المستخدمة في الرؤية والبحث والترميز. يتم تحديد المهام ببساطة عن طريق تعليمات ووظيفة تقييم تلقائية على النتائج النهائية، مما يسمح بتقييم موثوق وقابل للتوسع عبر بنى متفاوتة من الوكلاء.

يتم أيضًا تقديم CocoaAgent، وهو إطار عمل خفيف يتيح مقارنة دقيقة بين نماذج مختلفة. ومع ذلك، تكشف التجارب أن الوكلاء الحاليين لا يزالون بعيدين عن تحقيق موثوقية ملحوظة على CocoaBench، حيث حقق أفضل نظام تم تقييمه نسبة نجاح تبلغ 45.1% فقط. تشير التحليلات إلى وجود مجال كبير للتحسين في مجالات التفكير، التخطيط، استخدام الأدوات، والتنفيذ، مما يفتح المجال أمام أبحاث مستقبلية تركز على تطوير هذه الجوانب.

هل أنتم متحمسون لرؤية كيف سيتطور أداء الوكلاء الرقميين في المستقبل؟ شاركونا آرائكم وما تتوقعونه في تعليقاتكم.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة