في عصر يتزايد فيه استخدام وكالات الذكاء الاصطناعي (AI) في بيئات حقيقية ومتنوعة، يأتي "EgoBench" ليكون بمثابة نقطة تحول في تقييم هذه الوكالات. هذا المعيار التفاعلي الذي يركز على الاستخدام الفعال للأدوات يتضمن أكثر من 1,045 مهمة تستند إلى الفيديو، تغطي أربعة سيناريوهات يومية. يعد EgoBench الأول من نوعه الذي يوفر بيئة تفاعلية لتقييم الوكلاء في سياقات متعددة.
تسعى التكنولوجيا الحديثة إلى تحسين اندماج الإدراك المتعدد الوسائط (Multimodal Perception) مع استدعاء الأدوات (Tool Invocation) وخيارات التفكير المعقدة. ومع ذلك، كانت المعايير الموجودة سابقًا غير قادرة على تقييم هذه القدرات بشكل مشترك، مما أدى إلى الحاجة إلى معيار جديد يُعرف بـ EgoBench.
تم تصميم كل مهمة داخل EgoBench لتجسيد الاستخدام المشترك للإدراك البصري (Visual Perception) والتفكير المنطقي المعزز بواسطة الأدوات (Tool-augmented Multi-hop Reasoning)، مما يعكس الأبعاد الديناميكية للتفاعل مع المستخدم. كما يتم استخدام نموذج محاكي للمستخدمين يعزز التجربة من خلال توفير ردود فعل مناسبة للمواقف المحددة.
يكشف تقييم ثمانية نماذج رائدة (SOTA) باستخدام EgoBench عن سقف أداء مثير للقلق، حيث لا تتجاوز دقة أفضل نموذج 30.62% في السيناريو الأكثر نجاحًا، في حين أن المعدل العام لجميع السيناريوهات بلغ 19.43%. يُظهر التحليل المتعدد الأبعاد للأخطاء (Error Analysis) وجود نقاط اختناق في القدرات التي يجب التغلب عليها لتطوير وكالات الذكاء الاصطناعي المستقبلية.
خلاصة القول، EgoBench يمثل خطوة هامة نحو فهم كيفية تفاعل وكالات الذكاء الاصطناعي بشكل أفضل مع البيئة المحيطة بها وتحسين أدائها من خلال تقديم تجارب مستخدم تفاعلية ودقيقة.
ما هي آراءكم حول هذا التطور في عالم الذكاء الاصطناعي؟ شاركونا في التعليقات.
EgoBench: منصة جديدة ثورية لتقييم وكالات الذكاء الاصطناعي متعددة المهارات!
يُقدّم EgoBench معيارًا تفاعليًا جديدًا يعمل على تحسين أداء وكالات الذكاء الاصطناعي في بيئات متنوعة. يهدف إلى تقييم قدرات الوكلاء في استخدام الأدوات والتفاعل الديناميكي مع المستخدمين بشكل شامل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
