في عالم يتزايد فيه اعتمادنا على الوكلاء عبر الإنترنت لأداء مهام متنوعة، من ملء الاستمارات البسيطة إلى إدارة الطلبات عبر الإنترنت، كان من الضروري وجود إطار تقييم يركز على الأمان والخصوصية. هنا يأتي دور WebSP-Eval، الإطار الحديث الذي يهدف إلى ملء هذه الفجوة.
يقدم WebSP-Eval مجموعة من الأدوات والموارد لتقييم أداء الوكلاء في مهام تتعلق بالأمان مثل إدارة إعدادات الكوكيز (Cookies) وتكوين إعدادات الحساب الحساسة للخصوصية. يتألف هذا الإطار من:
1. مجموعة بيانات مُعدة يدويًا تضم 200 حالة عبر 28 موقعًا.
2. نظام قوي يُساعد في إدارة الحساب والحالة الأولية من خلال إضافة مخصصة لجوجل كروم.
3. مُقيّم آلي يقوم بتحليل الأداء بشكل دقيق.
لقد تم اختبار 8 نماذج من الوكلاء عبر الإنترنت باستخدام نماذج لغوية كبيرة متعددة الوسائط، وأسفرت التقييمات عن نتائج مثيرة. أظهرت النماذج الحالية تقييدًا في إمكانيات الاستكشاف الذاتي، مما أثر سلبًا على قدرتها على تنفيذ المهام المتعلقة بالأمان والخصوصية. وأبرزت النتائج أن العناصر التفاعلية في واجهات المستخدم (UI) كانت السبب الرئيسي لفشل الوكلاء في إنجاز المهام، حيث تسببت المفاتيح (Toggles) في أكثر من 45% من حالات الفشل عبر العديد من النماذج.
هذا البحث ليس مجرد تقييم، بل هو دعوة لتعزيز أمان وخصوصية المستخدمين في عالم الإنترنت، وبناء نماذج ذكاء اصطناعي أكثر ذكاءً وفهمًا لاحتياجات الأمان لدينا.
WebSP-Eval: ثورة جديدة في تقييم أداء الوكلاء عبر الإنترنت في مهام الأمان والخصوصية!
تم تطوير WebSP-Eval كإطار مبتكر لتقييم أداء الوكلاء على الإنترنت في مجالات الأمان والخصوصية، مُسلطًا الضوء على التحديات الحالية لنماذج الذكاء الاصطناعي في تنفيذ المهام المعقدة. يهدف هذا الإطار إلى تعزيز كفاءة الوكلاء في إدارة الأمان والخصوصية عبر مواقع الويب.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
