في عصر يفوق فيه الاعتماد على النماذج اللغوية الضخمة (Large Language Models)، أصبح من الضروري فهم مدى قدرتها على حماية بياناتنا الخاصة. تدخل أداة POLAR-Bench (Policy-aware adversarial Benchmark) لتعالج هذه التحديات من خلال الكشف عن توازن الخصوصية والفائدة.

تُظهر الأبحاث أن الوكلاء القائمين على هذه النماذج يمكنهم الوصول إلى بيانات المستخدمين الخاصة والتفاعل مع أنظمة خارجية بناءً على نوايا المستخدم. المستخدم يحدد ما يمكن وما يجب عدم مشاركته، ويتعين على الوكيل الالتزام بذلك حتى في مواجهة الأنظمة التي قد تتصرف بشكل عدائي.

تتضمن POLAR-Bench آلية حوارية تجمع بين نموذج موثوق مزود بسياسة خصوصية ومهمة، ونموذج خارجي يستفز لجمع معلومات تتعلق بالمهمة والبيانات المحمية. من خلال تحليل بيانات من 10 مجالات مختلفة تشمل أكثر من 7,852 عينة، تمكن الباحثون من تقييم الخصوصية والفائدة على أساس مجموعة من المعايير.

وقد أظهرت النتائج وجود فجوة واضحة بين النماذج المتقدمة، حيث يمكن أن تمتنع تلك النماذج عن الكشف عن أكثر من 99% من السمات المحمية. في المقابل، النماذج ذات الأوزان المفتوحة في نطاق 1-30 مليار، والتي غالبًا ما يستخدمها المستخدمون كوكيل موثوق، سجلت نتائج ضعيفة، حيث كانت الأدنى تعرضًا لكشف البيانات بنسبة تفوق الـ 50%.

تساعد POLAR-Bench على تحديد النقاط الحرجة في النماذج حيث يحدث انقطاع في اتباع النوايا، مما يوفر فرصة لتوجيه الخصوصية في الاتجاه الصحيح وإجراء تحسينات تحتاجها النماذج لضمان حماية بيانات المستخدمين.