في عالم الذكاء الاصطناعي، يتزايد الاعتماد على الوكلاء الصوتيين (Voice Agents) لإتمام المهام من خلال المحادثات المنطوقة. إلا أن التحديات القائمة أمام تقييم كفاءة هذه الأنظمة لا تزال قائمة. هنا يأتي دور EVA-Bench، الإطار الجديد الذي يسعى إلى معالجة هذين التحديين الرئيسيين.

يعمل EVA-Bench على توليد محادثات صوتية واقعية بين الروبوتات من خلال حوارات ديناميكية متعددة الأدوار، حيث يتضمن نظامه آلية للتحقق من صحة المحاكاة تلقائيًا، لتصحيح الأخطاء قبل بدء عملية التقييم. بينما يقدم الإطار مقاييس جديدة تشمل EVA-A لقياس الدقة وEVA-X لتقييم تجربة المستخدم، مما يسهل المقارنة بين بنى الوكلاء المختلفة.

تتضمن مجموعة التقييم 213 سيناريو عبر ثلاثة مجالات أعمال، مع مجموعة من التحديات الخاصة بمقاومة اللهجات والضوضاء، مما يوفر بيئة شاملة لتقييم الأداء الفعلي. تبين النتائج أن لا نظام من الأنظمة التي تم اختبارها يمكنه تجاوز النقاط 0.5 في كل من EVA-A وEVA-X. كما تم ملاحظة فجوات كبيرة في مقاومة الضوضاء واللهجات بين الأنظمة المختلفة.

بتقديم EVA-Bench كأداة مفتوحة المصدر، يفتح المجال أمام الباحثين والمطورين للدخول إلى عمق تقييم الوكلاء الصوتيين، مما يمهد الطريق لمستقبل أكثر تطورًا في تكنولوجيا التواصل الآلي.