شهدت نماذج اللغة الكبيرة (LLMs) تحولًا مثيرًا في استخدامها، حيث لم تعد مجرد أنظمة متخصصة في إنتاج النصوص بل أصبحت وكلاء قادرين على استدعاء أدوات خارجية، والوصول إلى بيئات معينة، وتنفيذ مهام متعددة الخطوات. مع هذا التحول، برزت الحاجة الملحة إلى أدوات تقييم جديدة تلبي متطلبات الخصوصية في هذه الأنظمة.

أداة ToolPrivacyBench تطل علينا كحل مبتكر، حيث تتجاوز معايير تقييم الوظيفة التقليدية التي تركز بشكل أساسي على إتمام المهام وصحة واجهات برمجة التطبيقات (APIs). ولكن، ماذا عن الخصوصية؟ فبينما تركز أدوات تقييم الخصوصية التقليدية على النتائج النهائية أو الأحكام حول الخصوصية، فإن ToolPrivacyBench تتناول تقييم تدفق المعلومات الذي يتم عبر مسارات متعددة للأدوات، مما يعكس كيف يتم توجيه المعلومات الخاصة ضمن النظام.

الأداة تحتوي على 2,150 حالة تقييم، منها 1,150 حالة تمثل سير عمل تجاري حساس للخصوصية تم إنشاؤه بشكل كامل و1,000 حالة مستندة من معايير موجودة لتقييم أدوات متعددة. بعد أن ينفذ الوكيل مهماته بالتفاعل مع واجهات أعمال وهمية، يقارن المحلل ما تم تسجيله من أرقام أساسية للأدوات وسجلات التدقيق الخارجية مع قاعدة المعرفة السياسية الخاصة بكل حالة.

التقييم يغطي تسعة وكلاء مستخدمين بشكل واسع، مما يسمح بفهم الخصوصية المتعلقة بالاستخدام المستند إلى الهدف. وتظهر النتائج أن نجاح التنفيذ لا يعني بالضرورة توفير بيانات خصوصية مناسبة؛ يمكن للوكيل إتمام المهمة مع نقل معلومات خاصة غير ضرورية بين استدعاءات الأدوات.

أداة ToolPrivacyBench بذلك تشكل معيارًا لتحديد حدود الكشف الضرورية، إذ ينبغي أن تتلقى كل أداة المعلومات الضرورية فقط لأغراضها المحددة. من خلال التدقيق على مستوى المسار، يتم كشف حالات الإفصاح الزائد عن الحاجة خلال عمليات العمل المتعددة الأدوات.

هل أنتم مستعدون لمواجهة تحديات الخصوصية في مستقبل الذكاء الاصطناعي؟ شاركونا آرائكم في التعليقات!