في عالم يتزايد فيه الاعتماد على التكنولوجيا، ينمو دور الوكلاء الذكيين (GUI Agents) بشكل متسارع. ومع ذلك، كانت المعايير الحالية تقتصر على تقييم أداء هذه الوكلاء في المهام الفردية فقط، متجاهلة الحاجة الحقيقية للتنسيق عبر تطبيقات متعددة. لذلك، تم تقديم WindowsWorld، وهو معيار جديد يهدف إلى تقييم قدرات الوكلاء الذكيين في بيئات العمل التي تتطلب التفاعل مع عدة تطبيقات.
يمثل WindowsWorld تقدماً ملحوظاً في دراسة الأداء الذكي للمساعدين الرقميين، إذ يركز على تقييم مهام معقدة تتصف بالاعتماد على عدد من التطبيقات المتنوعة. يعتمد هذا المعيار على شبكة متعددة الوكلاء تم توجيهها بناءً على 16 مهنة، مما يمكنك من إنشاء مهام ذات أربعة مستويات من الصعوبة مع فحوصات وسطية تتم تنقيحها عبر مراجعة بشرية.
يتضمن المعيار 181 مهمة تتوزع على 17 تطبيق مكتبي شائع، حيث تُعتبر 78% من هذه المهام متعددة التطبيقات بطبيعتها. وقد أسفرت التجارب مع نماذج كبيرة ووكالات رائدة عن نتائج مثيرة:
1. أداء ضعيف لجميع الوكلاء خلال المهام المتعلقة بالتطبيقات المتعددة، حيث لم تتجاوز نسبة النجاح 21%، وهو أقل بكثير من المهام الفردية.
2. عدم القدرة على أداء المهام التي تتطلب الحكم الشرطي والتفكير عبر 3 تطبيقات أو أكثر، مما أدى إلى توقفها عند الأهداف الفرعية.
3. كفاءة تنفيذ منخفضة، حيث غالباً ما تفشل المهام برغم تخطيها للحدود البشرية الخطوات بكثير.
يمكن الاطلاع على الكود وبيانات المعيار وموارد التقييم على موقع GitHub. يعد WindowsWorld خطوة نحو تحسين الكفاءة والاعتمادية في استخدام الوكلاء الذكيين، ويتطلب التعمق في دراسة هذه التطبيقات المتقدمة.
ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
WindowsWorld: ثورة جديدة في قياس أداء الوكلاء الذكيين عبر تطبيقات متعددة!
الكشف عن WindowsWorld، معيار جديد يقيم أداء الوكلاء الذكيين (GUI Agents) في بيئات العمل المتعددة التطبيقات. تقدم الدراسة رؤى مثيرة عن التحديات التي تواجهها هذه الوكلاء في إنجاز المهام الاحترافية المعقدة!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
