تتطور [وكالات الحاسوب](/tag/[وكالات](/tag/وكالات)-الحاسوب) (Computer-Using Agents - CUAs) بسرعة، حيث تتجاوز الآن حدود [النماذج اللغوية الضخمة](/tag/[النماذج](/tag/النماذج)-اللغوية-الضخمة) (Large Language [Models](/tag/models) - [LLMs](/tag/llms)) المحوسبة إلى [تنفيذ](/tag/تنفيذ) الإجراءات في بيئات أكثر تعقيدًا، مثل المتصفحات والواجهات الرسومية (GUIs). ولكن، كيف يمكن [تقييم أداء](/tag/[تقييم](/tag/تقييم)-[أداء](/tag/أداء)) هذه الوكالات في سيناريوهات العمل الاحترافية الواقعية؟
غالبًا ما تعتمد [أدوات](/tag/أدوات) [قياس](/tag/قياس) [الأداء](/tag/الأداء) الحالية لوكالات الويب وواجهات المستخدم الرسومية على إعدادات مبسطة، والتي تعزل المهام أو تركز على [تفاعلات](/tag/تفاعلات) قصيرة الأمد. لذلك، يصبح من الصعب [قياس](/tag/قياس) إمكانيات هذه الوكالات في بيئات العمل الحقيقية. ومن هنا تظهر أهمية بيئات [البرمجيات](/tag/البرمجيات) كخدمة ([Software](/tag/software)-as-a-Service - [SaaS](/tag/saas))، حيث تحتل حصة كبيرة من العمل الرقمي الحديث وتتطلب [إدارة](/tag/إدارة) [ديناميكية](/tag/ديناميكية) للحالات النظامية، وتنسيق [عبر](/tag/عبر) التطبيقات، ومعرفة متخصصة في المجال، والاعتماد على مستويات زمنية طويلة.
بهدف [تقييم](/tag/تقييم) فعالية هذه الوكالات، تم تقديم مشروع [SaaS](/tag/saas)-Bench، وهو معيار مبني على 23 نظام [SaaS](/tag/saas) قابل للتطبيق في ستة مجالات احترافية، يحتوي على 106 مهمة مستندة إلى سيناريوهات عملية واقعية. تتطلب هذه المهام [تنفيذ](/tag/تنفيذ) طويل الأمد، وتغطي الإعدادات النصية فقط وأخرى متعددة الوسائط، ويتم تقييمها من خلال [نقاط تحقق](/tag/نقاط-[تحقق](/tag/تحقق)) وزنية تقيس إتمام المهام بدقة وتقدم جزئي.
تظهر [التجارب](/tag/التجارب) أن الوكالات المبنية على [النماذج اللغوية الكبيرة](/tag/[النماذج](/tag/النماذج)-اللغوية-الكبيرة) تواجه صعوبة كبيرة في مشروع [SaaS](/tag/saas)-Bench، حيث أكمل أقوى نماذجها أقل من 4% من المهام المطلوبة بشكل كامل، مما يكشف عن [قيود](/tag/قيود) في التخطيط، وتتبع الحالة، وصيانة [السياق](/tag/السياق) [عبر](/tag/عبر) التطبيقات، واستعادة [الأخطاء](/tag/الأخطاء). يمكن العثور على [الكود](/tag/الكود) الخاص بالمشروع على [GitHub](https://github.com/UniPat-AI/SaaS-Bench) لإعادة إنتاج النتائج.
كيف ترون التحديات التي تواجه الوكالات في بيئات [SaaS](/tag/saas)؟ هل تعتقدون أن هذه التطورات ستؤثر على [مستقبل العمل](/tag/[مستقبل](/tag/مستقبل)-العمل) الاحترافي؟ شاركونا آراءكم في [التعليقات](/tag/التعليقات)!
SaaS-Bench: كيف يمكن لوكالات الذكاء الاصطناعي استغلال خدمات البرمجيات لحل تحديات العمل الاحترافي؟
تسعى وكالة الذكاء الاصطناعي (CUAs) لاجتياز حدود التفكير النصي إلى تنفيذ الإجراءات في بيئات معقدة. يقيم مشروع SaaS-Bench أداء هذه الوكالات لمواجهة التحديات الاحترافية عبر مجموعة من المهام الواقعية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
