في عالم الذكاء الاصطناعي، باتت الحاجة لتقييم أداء الوكلاء في بيئات العمل المعقدة أمراً ملحاً. ومن هذا المنطلق، تم تقديم معيار جديد يُعرف باسم Workspace-Bench 1.0، الذي يهدف إلى تقييم قدرة وكلاء الذكاء الاصطناعي على التعرف على واعتماديات الملفات المتنوعة في مكان العمل. يتطلب هذا النوع من التعلم من الوكلاء القدرة على التفكير والمسايرة الفعالة لتلك الاعتماديات، سواء كانت مرئية أو ضمنية، مما يساهم في إتمام المهام اليومية والمعقدة بكفاءة.

ومع ذلك، رغم الأهمية الكبيرة لهذه المهمة، فإن المعايير الحالية تركز بشكل عام على تقييم الأداء باستخدام ملفات محددة مسبقاً أو مُصنّعة، مما يحد من فرص تقييم الوكلاء في بيئات العمل الواقعية. لذا، تم تطوير Workspace-Bench، وهو معيار يتضمن 5 ملفات تعريف للموظفين و74 نوعاً من الملفات، تصل إلى 20,476 ملفاً، مع 388 مهمة، كل منها مُعتمدة على رسم بياني خاص باعتماديات الملفات.

تشمل هذه المهام تقنيات استرجاع المعلومات عبر الملفات، والتفكير السياقي، واتخاذ القرارات التكيفية، حيث تم تقييم الأداء عبر 7,399 معيار تقييم. كما تم تقديم نسخة مختصرة تُعرف بـ Workspace-Bench-Lite، التي تضم 100 مهمة وتعمل على تقليل تكلفة التقييم بنحو 70%.

تشير نتائج التجارب إلى أن الأداء الحالي للوكلاء لا يزال بعيداً عن النتائج الموثوقة، حيث لم تتجاوز أعلى درجات الأداء 68.7%، مقابل 80.7% للنتائج التي حققها البشر، بينما بلغ المتوسط 47.4% فقط. يسلط هذا التفاوت الضوء على التحديات الكبيرة التي تواجه وكلاء الذكاء الاصطناعي في الوصول إلى مستوى الفعالية المطلوبة في بيئات العمل المعقدة.