في عالم اليوم، حيث يحظى الخصوصية بتقدير عالٍ، تعتبر عمليات التدقيق التلقائي المتعلقة بالخصوصية لمواقع الإنترنت والتطبيقات المحمولة مسألة حيوية. تكشف هذه العمليات عن تسرب المعلومات الشخصية (PII) من خلال تحليل حركة HTTP الصادرة. ومع ذلك، تواجه تقنيات الكشف المعتمدة على التعلم تحديات كبيرة نظراً لاعتمادها على كمية ضئيلة من البيانات المصنفة بشكل يدوي وارتباطها الوثيق بتصنيفات ثابتة، مما يحد من قابليتها للتطبيق عبر مجالات مختلفة وتعريف المعلومات الشخصية المتغيرة.
تأتي ورقة بحثية جديدة لتقديم ابتكار في هذا المجال، حيث تقترح استخدام نماذج اللغة الكبيرة (LLMs) لدعم تصنيف المعلومات الشخصية دون الحاجة إلى تصنيفات ثابتة. تعتمد هذه الورقة على إنشاء خط أنابيب متعدد المراحل يجمع بين المعالجة الأولية الحتمية مع تصنيف على مستوى التسمية، وتحديد القيم المحددة، والتحقق من النتائج.
لتمكين التقييم المنضبط واختبار أمثلة البيانات بشكل موثوق، تم اقتراح مولد يعتمد على نماذج اللغة الكبيرة لإنشاء حركة HTTP اصطناعية مع تعليقات دقيقة ومصنّفة، مما يعزز القدرة على التفاعل مع تعاريف الخصوصية المتغيرة بمرونة.
أظهرت النتائج قدرة هذه التقنية على الكشف بدقة عن أنواع المعلومات الشخصية واستخراج القيم المتوافقة، مما يفتح آفاقاً جديدة للممارسات المتعلقة بالخصوصية في البيئة الرقمية.
كسر قيود البيانات: نموذج جديد لتحديد المعلومات الشخصية في حركة HTTP باستخدام نماذج اللغة الكبيرة!
تتحدى الأبحاث الجديدة محدودية البيانات المصنفة في تحليل حركة HTTP وتعتمد على نماذج اللغة الكبيرة لتحديد المعلومات الشخصية الديناميكية. هذا التطور قد يغير كيفية تعامل الأنظمة مع الخصوصية عبر الإنترنت.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
