سباق الوكلاء الرائع: تقدمات متقدمة وأخطاء في التنقل!
🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

سباق الوكلاء الرائع: تقدمات متقدمة وأخطاء في التنقل!

يقدم benchmark الجديد بعنوان 'سباق الوكلاء الرائع' تحديات معقدة لوكلاء الذكاء الاصطناعي، حيث يتعين عليهم التنقل عبر ويكيبيديا وإجراء سلسلة من الخطوات. لكن النتائج تكشف عن تفوق الأخطاء في التنقل على الأخطاء في استخدام الأدوات.

في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى تقييم قدرات الوكلاء بشكل دقيق، ولهذا السبب تم تقديم benchmark جديد يُعرف باسم 'سباق الوكلاء الرائع' (Amazing Agent Race - AAR). يكشف هذا المشروع المبتكر عن عيوب العديد من benchmarks الحالية التي تركزت بشكل مفرط على السلاسل الخطية البسيطة من الخطوات.

وفي تحليل لكفاءة ستة benchmarks موجودة، وُجد أن 55% إلى 100% من الحالات هي مجرد سلاسل بسيطة تتألف من 2 إلى 5 خطوات، مما يعني أن هناك حاجة ملحة لتحديات أكثر تعقيدًا.

يقدم 'سباق الوكلاء الرائع' تحديات تتضمن ألغازًا على شكل رسومات بيانية غير دورية (DAG) مع سلاسل أدوات متفرعة ومتجمعة. يقوم الفريق بإصدار 1,400 حالة عبر نوعين: متتابعة تضم 800 حالة و600 حالة من الرسوم البيانية المركبة. يتعين على الوكلاء التنقل في ويكيبيديا، وتنفيذ سلاسل أدوات متعددة الخطوات، وتجميع النتائج في إجابة يمكن التحقق منها.

تتضمن الحالات مستويات صعوبة متعددة، وتم تصميمها باستخدام بذور من ويكيبيديا مع التحقق المباشر من API. تم اعتماد ثلاث مقاييس تكاملية لتشخيص الأخطاء: دقة خط النهاية، ومعدل زيارة محطات التوقف، ومعدل استكمال العوائق.

تم تقييم ثلاثة أطر عمل لوكلاء الذكاء الاصطناعي على 1,400 حالة، وتبين أن الأفضل منهم لا يحقق سوى 37.2% من الدقة، حيث تهيمن الأخطاء في التنقل على النتائج. فبينما تبقى الأخطاء في استخدام الأدوات أقل من 17%، تظهر الأخطاء في التنقل (27% إلى 52% من التجارب). ويبدو أن هيكل AAR المركب يكشف النقاب عن أن فشل الوكلاء ليس في استدعاء الأدوات، بل في التنقل إلى الصفحات الصحيحة، وهي منطقة عمياء غير مرئية في benchmarks الخطية الحالية.

للتعرف أكثر على هذا المشروع الثوري، يمكنك زيارة صفحة المشروع [هنا](https://minnesotanlp.github.io/the-amazing-agent-race).
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة