في عصر تتزايد فيه احتياجات المستخدمين لتقنيات الذكاء الاصطناعي، أصبح من الضروري قياس كفاءة هذه النماذج في استخدام الأدوات المتاحة. هنا يأتي دور مشروع MCP-Atlas، المعيار الكبير الذي يعد خطوة كبيرة نحو تقييم مدى قدرة نماذج اللغة الضخمة (LLMs) على استخدام الأدوات بشكل فعّال.

MCP (نموذج بروتوكول السياق) أصبح الإطار القياسي لتمكين نماذج اللغة من اكتشاف واستدعاء الأدوات الخارجية، لكن التقييمات الحالية غالبًا ما تعاني من قصور، إذ تعتمد على مجموعات أدوات محدودة وسيناريوهات بسيطة، مما يؤدي إلى نتائج قد لا تعكس الواقع.

يتميز MCP-Atlas بتقديمه لمعيار شامل يتألف من 36 خادماً حقيقياً و220 أداة، مع 1000 مهمة مصممة خصيصًا لاختبار كفاءة استخدام الأدوات في سيناريوهات متعددة الخطوات. هذه المهام تعتمد على استخدام تلقائي للغة الطبيعية وبالتالي تتجنب ذكر أسماء الأدوات أو الخوادم مباشرة، مما يتطلب من النماذج استكشاف وتنسيق 3-6 طلبات أدوات عبر خوادم متعددة.

يتم تقييم المهام وفقًا لمدى تحقق الادعاءات الواقعية في الإجابة النهائية للنموذج، مع إمكانية منح نقاط جزئية. تتضمن عملية التقييم أيضًا تشخيصات داخلية تتعلق بكفاءة استكشاف الأدوات، وضبط المعلمات، والعمليات النحوية، واستعادة الأخطاء.

تشير النتائج الأولية على النماذج المتقدمة إلى أن بعض النماذج حققت نسب نجاح تفوق 50%، ولكنها تعاني بالأساس من ضعف في فهم المهمة واستخدام الأدوات بشكل ملائم. كخطوة لتعزيز البحث والتطوير، تم إصدار بنية المهام، وصندوق الحاويات، ومجموعة بيانات عامة تتألف من 500 مهمة، مما يساهم في إجراء مقارنات قابلة للتكرار.

ماذا عنكم؟ هل تعتقدون أن MCP-Atlas سيغير طريقة تعامل الذكاء الاصطناعي مع الأدوات الخارجية؟ شاركونا آراءكم في التعليقات.