في عالم يتزايد فيه اعتمادنا على الوكلاء عبر الإنترنت لأداء مهام متنوعة، من ملء الاستمارات البسيطة إلى إدارة الطلبات عبر الإنترنت، كان من الضروري وجود إطار تقييم يركز على الأمان والخصوصية. هنا يأتي دور WebSP-Eval، الإطار الحديث الذي يهدف إلى ملء هذه الفجوة.

يقدم WebSP-Eval مجموعة من الأدوات والموارد لتقييم أداء الوكلاء في مهام تتعلق بالأمان مثل إدارة إعدادات الكوكيز (Cookies) وتكوين إعدادات الحساب الحساسة للخصوصية. يتألف هذا الإطار من:
1. مجموعة بيانات مُعدة يدويًا تضم 200 حالة عبر 28 موقعًا.
2. نظام قوي يُساعد في إدارة الحساب والحالة الأولية من خلال إضافة مخصصة لجوجل كروم.
3. مُقيّم آلي يقوم بتحليل الأداء بشكل دقيق.

لقد تم اختبار 8 نماذج من الوكلاء عبر الإنترنت باستخدام نماذج لغوية كبيرة متعددة الوسائط، وأسفرت التقييمات عن نتائج مثيرة. أظهرت النماذج الحالية تقييدًا في إمكانيات الاستكشاف الذاتي، مما أثر سلبًا على قدرتها على تنفيذ المهام المتعلقة بالأمان والخصوصية. وأبرزت النتائج أن العناصر التفاعلية في واجهات المستخدم (UI) كانت السبب الرئيسي لفشل الوكلاء في إنجاز المهام، حيث تسببت المفاتيح (Toggles) في أكثر من 45% من حالات الفشل عبر العديد من النماذج.

هذا البحث ليس مجرد تقييم، بل هو دعوة لتعزيز أمان وخصوصية المستخدمين في عالم الإنترنت، وبناء نماذج ذكاء اصطناعي أكثر ذكاءً وفهمًا لاحتياجات الأمان لدينا.