في خضم التطورات المتسارعة لنماذج اللغات الضخمة (Large Language Models)، يظهر معيار تقييم جديد يُدعى TUA-Bench، والذي يهدف إلى إعادة تعريف قدرات الوكلاء في بيئات الطرفيات (Terminal Agents). والفرق الجوهري في هذا المعيار الجديد هو تركيزه على تقديم تقييم شامل لوكلاء الاستخدام العام، بدلاً من الاعتماد علي الفحوصات القائمة على واجهات المستخدم الرسومية (GUIs) أو الاستخدامات البرمجية فقط.

يتضمن TUA-Bench مجموعتين من المهام، حيث تغطي 120 مهمة حقيقية تمتد عبر خمسة عائلات من المهام. تشمل هذه المهام أنشطة رقمية روتينية مثل تحرير الوثائق وإدارة البريد الإلكتروني والبحث في المعلومات الحية على الويب، إضافةً إلى تدفقات العمل العلمية والهندسية التي تم تصميمها بالتعاون مع خبراء أكاديميين حاصلين على درجة الدكتوراه.

يتميز TUA-Bench بخياراته المتعددة، حيث تم تصميم كل مهمة يدويًا وتُجري في بيئة طرفية حقيقية مع سيناريوهات إعداد حتمية، مما يمنحها دقة وموثوقية في القياس. وقد أظهرت النتائج الأولية أن أقوى وكيل على واجهة المستخدم، Claude Code مع Claude Opus 4.8، حقق أداءً يصل إلى 65.8%، مع وجود فجوات واضحة في الأداء عبر مختلف المهام.

من خلال هذا المعيار، يسعى TUA-Bench إلى تسريع الانتقال من المساعدين الضيقين المخصصين لمهام معينة إلى وكلاء عامين قادرين على العمل بشكل موثوق عبر بيئات رقمية متنوعة. تعتبر هذه الخطوة ثورية في عالم الذكاء الاصطناعي، حيث توفر أداة جديدة تساهم في تحسين فعالية التعاون بين الإنسان والآلة.