في عالم اليوم، حيث يحظى الخصوصية بتقدير عالٍ، تعتبر عمليات التدقيق التلقائي المتعلقة بالخصوصية لمواقع الإنترنت والتطبيقات المحمولة مسألة حيوية. تكشف هذه العمليات عن تسرب المعلومات الشخصية (PII) من خلال تحليل حركة HTTP الصادرة. ومع ذلك، تواجه تقنيات الكشف المعتمدة على التعلم تحديات كبيرة نظراً لاعتمادها على كمية ضئيلة من البيانات المصنفة بشكل يدوي وارتباطها الوثيق بتصنيفات ثابتة، مما يحد من قابليتها للتطبيق عبر مجالات مختلفة وتعريف المعلومات الشخصية المتغيرة.

تأتي ورقة بحثية جديدة لتقديم ابتكار في هذا المجال، حيث تقترح استخدام نماذج اللغة الكبيرة (LLMs) لدعم تصنيف المعلومات الشخصية دون الحاجة إلى تصنيفات ثابتة. تعتمد هذه الورقة على إنشاء خط أنابيب متعدد المراحل يجمع بين المعالجة الأولية الحتمية مع تصنيف على مستوى التسمية، وتحديد القيم المحددة، والتحقق من النتائج.

لتمكين التقييم المنضبط واختبار أمثلة البيانات بشكل موثوق، تم اقتراح مولد يعتمد على نماذج اللغة الكبيرة لإنشاء حركة HTTP اصطناعية مع تعليقات دقيقة ومصنّفة، مما يعزز القدرة على التفاعل مع تعاريف الخصوصية المتغيرة بمرونة.

أظهرت النتائج قدرة هذه التقنية على الكشف بدقة عن أنواع المعلومات الشخصية واستخراج القيم المتوافقة، مما يفتح آفاقاً جديدة للممارسات المتعلقة بالخصوصية في البيئة الرقمية.