اكتشف قوة OSWorld 2.0: اختبارات جديدة تضع حدود استخدام الحاسوب على المحك!

Q: ما هو موضوع مقال "اكتشف قوة OSWorld 2.0: اختبارات جديدة تضع حدود استخدام الحاسوب على المحك!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "اكتشف قوة OSWorld 2.0: اختبارات جديدة تضع حدود استخدام الحاسوب على المحك!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

تتطلب البيئات الحالية للتكنولوجيا أنظمة أكثر ذكاءً وفعالية لفهم ودعم استخدام الأجهزة الحاسوبية. وقد تم تطوير OSWorld 2.0 لتلبية هذا التحدي من خلال تقديم مجموعة جديدة من المعايير الذكية التي تقيم أداء الوكلاء الذكيين.

تتضمن OSWorld 2.0 ما يقرب من 108 سيناريوهات للمهام تمتد عبر استخدامات يومية ومهنية، الهدف منها هو إدخال تعقيد الحياة الواقعية في اختبارات الوكلاء. كل مهمة تمثل تدفق عمل واقعي يستغرق ما يقارب 1.6 ساعة بمعدل استدعاء أدوات يبلغ 318، مقارنةً بحوالي 30 في النسخة السابقة OSWorld 1.0.

تسعى OSWorld 2.0 إلى استحضار ظواهر التحديات التي تعاني منها أنظمة الوكلاء الحالية، مثل التفاعل الديناميكي والتفكير عبر مصادر المعلومات. كما تأخذ بعين الاعتبار تقارير سلامة منفصلة لضمان تنفيذ آمن، مع مراعاة البيانات الشخصية للدخول.

عندما تم اختبار أداء Claude Opus 4.8 على أساس أقصى أداء فكري، سجلت النتائج 20.6% فقط من المهام المكتملة بنجاح، وهو ما يعكس كيف أن الأنظمة الحالية لا تزال بعيدة عن تحقيق مستوى الاحتراف في استخدام الحاسوب.

تظل الأنظمة تكافح للتمييز بين التحديات الأساسية مثل التحكم في الواجهة الرسومية أو تطوير التعليمات البرمجية، حيث تفشل في تتبع الشروط أو تتجاهل المعلومات الجديدة التي قد تظهر خلال أداء المهمة. هذا التحليل يشير إلى حاجة ملحة للمزيد من التطوير لفهم ديناميكيات المهام المعقدة والتفاعل معها بفعالية.

اكتشف قوة OSWorld 2.0: اختبارات جديدة تضع حدود استخدام الحاسوب على المحك!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

ثورة في العلاج العصبي: جهاز جديد يُزرع في دماغ الإنسان من شركة ماكس هوداك