تتطلب البيئات الحالية للتكنولوجيا أنظمة أكثر ذكاءً وفعالية لفهم ودعم استخدام الأجهزة الحاسوبية. وقد تم تطوير OSWorld 2.0 لتلبية هذا التحدي من خلال تقديم مجموعة جديدة من المعايير الذكية التي تقيم أداء الوكلاء الذكيين.

تتضمن OSWorld 2.0 ما يقرب من 108 سيناريوهات للمهام تمتد عبر استخدامات يومية ومهنية، الهدف منها هو إدخال تعقيد الحياة الواقعية في اختبارات الوكلاء. كل مهمة تمثل تدفق عمل واقعي يستغرق ما يقارب 1.6 ساعة بمعدل استدعاء أدوات يبلغ 318، مقارنةً بحوالي 30 في النسخة السابقة OSWorld 1.0.

تسعى OSWorld 2.0 إلى استحضار ظواهر التحديات التي تعاني منها أنظمة الوكلاء الحالية، مثل التفاعل الديناميكي والتفكير عبر مصادر المعلومات. كما تأخذ بعين الاعتبار تقارير سلامة منفصلة لضمان تنفيذ آمن، مع مراعاة البيانات الشخصية للدخول.

عندما تم اختبار أداء Claude Opus 4.8 على أساس أقصى أداء فكري، سجلت النتائج 20.6% فقط من المهام المكتملة بنجاح، وهو ما يعكس كيف أن الأنظمة الحالية لا تزال بعيدة عن تحقيق مستوى الاحتراف في استخدام الحاسوب.

تظل الأنظمة تكافح للتمييز بين التحديات الأساسية مثل التحكم في الواجهة الرسومية أو تطوير التعليمات البرمجية، حيث تفشل في تتبع الشروط أو تتجاهل المعلومات الجديدة التي قد تظهر خلال أداء المهمة. هذا التحليل يشير إلى حاجة ملحة للمزيد من التطوير لفهم ديناميكيات المهام المعقدة والتفاعل معها بفعالية.