في عالم الذكاء الاصطناعي (AI)، يعتبر الاتصال بالأدوات من القدرات الحيوية التي يجب أن يتمتع بها الوكلاء الذكيون. بينما تعتمد معظم الأطر التقليدية لمثل هذه الاتصالات على تعريفات أدوات ثابتة ومحددة من قبل مزودي الخدمة، يوفر بروتوكول السياق النموذجي (Model Context Protocol) واجهة موحدة لاكتشاف واستدعاء الأدوات بشكل ديناميكي. لكن، يظهر فجوة حادة في تقييم المهام متعددة الخطوات باستخدام مجموعة متنوعة من أدوات MCP في سيناريوهات واقعية.
هنا يأتي معيار LiveMCP-101 الجديد، الذي يتضمن 101 استفسار من العالم الحقيقي تتطلب التنسيق بين استخدام عدة أدوات MCP. لمواجهة التغيرات الزمنية في استجابة الأدوات في العالم الواقعي، قمنا بتقديم إطار تقييم موازٍ حيث ينفذ وكيل مرجعي خطة موثقة في وقت واحد ليقدم مخرجات مرجعية في الوقت الحقيقي. أظهرت التجارب أن حتى النماذج اللغوية الكبيرة المتقدمة (Frontier LLMs) لم تتمكن من تحقيق معدل نجاح يفوق 60%، مما يبرز التحديات في استخدام الأدوات خلال خطوات متعددة.
تشير تحليل الأخطاء الشامل إلى وجود سبعة أنماط فشل تغطي تخطيط الأدوات، والمعلمات، والتعامل مع المخرجات، مما يوجه إلى اتجاهات ملموسة لتحسين النماذج الحالية. يتطلع معيار LiveMCP-101 إلى وضع معايير صارمة لقياس قدرات الوكلاء في العالم الحقيقي، مما يساهم في التقدم نحو أنظمة الوكلاء المستقلة القادرة على تنفيذ مهام معقدة بكفاءة من خلال تنسيق أدوات MCP.
لايف إم سي بي - 101: اختبار الضغط وتشخيص الوكلاء المدعومين بـ MCP في مواجهة استفسارات معقدة
تقديم معيار LiveMCP-101 لاختبار قدرات الوكلاء الذكيين في تنفيذ مهام متعددة باستخدام أدوات نموذج بروتوكول السياق. الدراسة تكشف التحديات وتوجهات لتحسين الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
