في عالم يتزايد فيه استخدام نماذج اللغات الضخمة (Large Language Models) في مجالات حساسة تتطلب حذف المعلومات القابلة للتحديد الشخصي (PII)، تظهر الحاجة إلى معايير جديدة تعكس تعقيد الخصوصية. وفي هذا السياق، تم تقديم RedactionBench، والذي يمثل معيارًا مرجعيًا مصممًا يضم 200 مستند متنوع عبر 11 مجالًا مختلفًا، مستمدًّا أساسًا من مصادر حقيقية.

تكمن أهمية RedactionBench في أنه يضع معيارًا جديدًا يتمحور حول الخصوصية السياقية، حيث تختلف قيمة المعلومات بحسب من يمتلكها، وسبب تجاوزها. ليس كل رقم هاتف عام يمكن اعتباره متماثلاً مع رقم هاتف موجود في سجلات طبية، وهي نقطة أساسية تجعل من عملية حذف المعلومات أكثر تعقيدًا.

بجانب RedactionBench، يتم تقديم R-Score، وهو مقياس مبتكر يقيس دقة عملية الحذف بناءً على التشابه الدلالي، مما يلغي الخيارات السطحية في التنسيق مثل أساليب حماية الأرقام. تشير الفحوصات التي أجريت على النماذج المختلفة، بما في ذلك نماذج استخراج الكيانات (Named Entity Recognition) والنماذج الصغيرة، إلى أن عملية الحذف السياقية لا تزال ميدانًا يحتاج إلى المزيد من البحث.

كما أظهر تقييم أجري مع 80 مستخدمًا على RedactionBench وجود انقسام واضح في التصورات حول الخصوصية، حيث اتفق المراجعون على ملصقات الحذف الإلزامية بنسبة 89.4%، بينما انخفضت النسبة إلى 47.7% حول عمليات الحذف السياقية. هذه الفروقات تعكس طبيعة الخصوصية السياقية وكيف يمكن أن تختلف بحسب الأفراد والسياقات.

باختصار، يمثل RedactionBench نقطة انطلاق هامة لنظم جديدة تهدف للحفاظ على الخصوصية، ويأمل الباحثون في أن يسهم إطلاق هذه المعايير في تصميم نماذج أكثر كفاءة وتوحيد تقييمات الخصوصية.