تتطلب البيئات الحالية للتكنولوجيا أنظمة أكثر ذكاءً وفعالية لفهم ودعم استخدام الأجهزة الحاسوبية. وقد تم تطوير OSWorld 2.0 لتلبية هذا التحدي من خلال تقديم مجموعة جديدة من المعايير الذكية التي تقيم أداء الوكلاء الذكيين.
تتضمن OSWorld 2.0 ما يقرب من 108 سيناريوهات للمهام تمتد عبر استخدامات يومية ومهنية، الهدف منها هو إدخال تعقيد الحياة الواقعية في اختبارات الوكلاء. كل مهمة تمثل تدفق عمل واقعي يستغرق ما يقارب 1.6 ساعة بمعدل استدعاء أدوات يبلغ 318، مقارنةً بحوالي 30 في النسخة السابقة OSWorld 1.0.
تسعى OSWorld 2.0 إلى استحضار ظواهر التحديات التي تعاني منها أنظمة الوكلاء الحالية، مثل التفاعل الديناميكي والتفكير عبر مصادر المعلومات. كما تأخذ بعين الاعتبار تقارير سلامة منفصلة لضمان تنفيذ آمن، مع مراعاة البيانات الشخصية للدخول.
عندما تم اختبار أداء Claude Opus 4.8 على أساس أقصى أداء فكري، سجلت النتائج 20.6% فقط من المهام المكتملة بنجاح، وهو ما يعكس كيف أن الأنظمة الحالية لا تزال بعيدة عن تحقيق مستوى الاحتراف في استخدام الحاسوب.
تظل الأنظمة تكافح للتمييز بين التحديات الأساسية مثل التحكم في الواجهة الرسومية أو تطوير التعليمات البرمجية، حيث تفشل في تتبع الشروط أو تتجاهل المعلومات الجديدة التي قد تظهر خلال أداء المهمة. هذا التحليل يشير إلى حاجة ملحة للمزيد من التطوير لفهم ديناميكيات المهام المعقدة والتفاعل معها بفعالية.
اكتشف قوة OSWorld 2.0: اختبارات جديدة تضع حدود استخدام الحاسوب على المحك!
تمثل OSWorld 2.0 تقدماً كبيراً في كيف يمكن للأنظمة الذكية أن تتفاعل مع الاستخدامات الواقعية الحقيقية للحواسيب. تشمل التحديات الفريدة التي يواجهها النظام الجديد قياس الأداء في سيناريوهات معقدة وطويلة الأمد.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←# OSWorld 2.0# Claude Opus 4.8# معايير الذكاء الاصطناعي# وكلاء الذكاء الاصطناعي# تكنولوجيا المعلومات# اختبارات الأداء# التفاعل الديناميكي# البحث والتطوير
جاري تحميل التفاعلات...
