تتطور وكالات الحاسوب (Computer-Using Agents - CUAs) بسرعة، حيث تتجاوز الآن حدود النماذج اللغوية الضخمة (Large Language Models - LLMs) المحوسبة إلى تنفيذ الإجراءات في بيئات أكثر تعقيدًا، مثل المتصفحات والواجهات الرسومية (GUIs). ولكن، كيف يمكن تقييم أداء هذه الوكالات في سيناريوهات العمل الاحترافية الواقعية؟
غالبًا ما تعتمد أدوات قياس الأداء الحالية لوكالات الويب وواجهات المستخدم الرسومية على إعدادات مبسطة، والتي تعزل المهام أو تركز على تفاعلات قصيرة الأمد. لذلك، يصبح من الصعب قياس إمكانيات هذه الوكالات في بيئات العمل الحقيقية. ومن هنا تظهر أهمية بيئات البرمجيات كخدمة (Software-as-a-Service - SaaS)، حيث تحتل حصة كبيرة من العمل الرقمي الحديث وتتطلب إدارة ديناميكية للحالات النظامية، وتنسيق عبر التطبيقات، ومعرفة متخصصة في المجال، والاعتماد على مستويات زمنية طويلة.
بهدف تقييم فعالية هذه الوكالات، تم تقديم مشروع SaaS-Bench، وهو معيار مبني على 23 نظام SaaS قابل للتطبيق في ستة مجالات احترافية، يحتوي على 106 مهمة مستندة إلى سيناريوهات عملية واقعية. تتطلب هذه المهام تنفيذ طويل الأمد، وتغطي الإعدادات النصية فقط وأخرى متعددة الوسائط، ويتم تقييمها من خلال نقاط تحقق وزنية تقيس إتمام المهام بدقة وتقدم جزئي.
تظهر التجارب أن الوكالات المبنية على النماذج اللغوية الكبيرة تواجه صعوبة كبيرة في مشروع SaaS-Bench، حيث أكمل أقوى نماذجها أقل من 4% من المهام المطلوبة بشكل كامل، مما يكشف عن قيود في التخطيط، وتتبع الحالة، وصيانة السياق عبر التطبيقات، واستعادة الأخطاء. يمكن العثور على الكود الخاص بالمشروع على GitHub لإعادة إنتاج النتائج.
كيف ترون التحديات التي تواجه الوكالات في بيئات SaaS؟ هل تعتقدون أن هذه التطورات ستؤثر على مستقبل العمل الاحترافي؟ شاركونا آراءكم في التعليقات!
SaaS-Bench: كيف يمكن لوكالات الذكاء الاصطناعي استغلال خدمات البرمجيات لحل تحديات العمل الاحترافي؟
تسعى وكالة الذكاء الاصطناعي (CUAs) لاجتياز حدود التفكير النصي إلى تنفيذ الإجراءات في بيئات معقدة. يقيم مشروع SaaS-Bench أداء هذه الوكالات لمواجهة التحديات الاحترافية عبر مجموعة من المهام الواقعية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
