في السنوات الأخيرة، شهدت تقنيات الذكاء الاصطناعي تقدمًا ملحوظًا في قدرتها على إدارة مهام الحياة الواقعية التي تتسم بالتعقيد. ومن بين الخطوات المحورية التي تسعى لتطوير أداء الأنظمة الذكية في هذا السياق كانت البدء في استخدام معايير تقييم جديدة مخصصة لمهام المستخدم الطويلة الأمد، وخاصة في مجالات العمل الاحترافية.

على الرغم من التطورات التي حدثت، فإن المعايير الموجودة حاليًا لا تقوم بتقييم ما إذا كان بإمكان الوكلاء تنفيذ واجهات المستخدم الرسومية (Graphical User Interfaces) لإنجاز مهام احترافية طويلة الأمد ذات قيمة اقتصادية مرتفعة. حيث تظل المعايير الحالية تركز على البرمجيات العامة والتطبيقات البسيطة، مما يجعل من الصعب معرفة ما إذا كانت الأنظمة الحديثة قادرة على اتباع تعليمات المستخدم والتعامل مع البرمجيات الاحترافية المعقدة.

لذا، تم تقديم معيار Workflow-GYM، وهو معيار يركز على مهام واجهة المستخدم الرسومية الطويلة الأمد في البيئات الاحترافية. نتائج التجارب التي أجريت على نماذج متطورة أظهرت أن أعلى النماذج لم تحقق سوى 30% من معدلات النجاح، مشيرة إلى أن تنفيذ المهام الاحترافية لا يزال تحديًا كبيرًا.

تحليلات إضافية أظهرت أن الوكلاء الحاليين يواجهون صعوبات في الحفاظ على اتساق تنفيذ المهام الطويلة الأمد، وغالبًا ما يظهرون مشاكل مثل إغفال مراحل العمل، وتوجيه الأخطاء، واهتزاز الأهداف، وفهم غير كافٍ لبيئات البرمجيات الاحترافية.

توفر هذه النتائج رؤى هامة حول قيود الأنظمة الحالية وتحدد الاتجاهات الأساسية للجيل القادم من أبحاث الوكلاء الذكيين.