في عالم تُعتبر فيه المعلومات الشخصية (PII) ذات أهمية كبيرة، تكتسب أنظمة الكشف عنها أهمية متزايدة. تواجه هذه الأنظمة تحدي قلة نطاق البيانات أثناء التدريب، مما يحد من جودتها عند نشرها على نصوص متنوعة.
في بحثنا الجديد، قمنا باستكشاف تحسين النماذج على مجموعة بيانات متعددة المصادر، المسماة PIIBench، والتي تغطي 82 نوعًا من الكيانات عبر عشرة مجموعات بيانات مختلفة. ركزنا على ثلاث طرق تعتمد على نموذج DeBERTa: تحسين تصنيف الرموز المباشر، نموذج هرمي مشروط على المصدر (SC+H)، وإضافة منهجية تعليمية ثلاثية المراحل (SC+H+Curr).
بالنسبة للاختبارات، قمنا بتقييم الأنظمة على مجموعة بيانات محفوظة تتكون من 5000 سجل. أظهرت النتائج أن نموذج DeBERTa المحسن مباشرًا حقق دقة (F1) بلغت 0.6476، بينما سجلت الطرق الأخرى SC+H و SC+H+Curr درجات منخفضة بلغت 0.5899 و0.2772 على التوالي. ومن المثير للاهتمام أن أقوى نظام مقارنة تم نشره سابقًا حقق 0.1723 فقط.
عند إجراء تقييم نهائي على مجموعة بيانات أكبر مكونة من 100,002 سجل، ظل تحسين DeBERTa المباشر هو الأكثر تفوقًا، حيث حقق 0.6455 مقابل 0.5894 لـ SC+H.
تظهر تحليل الكيانات أن تحسين النماذج المباشر تفوق في 54 من أصل 82 نوعًا وأيضًا في جميع المجموعات العشر الكبرى. بينما احتفظ نموذج SC+H بمزايا محلية على 28 نوعًا فقط.
تشير النتائج إلى أن تنوع البيانات التدريبية الخاصة بالمهمة وأهداف الانحدار المعقدة بسيطة الوزن تسهم بشكل أكبر في الكشف الشامل عن المعلومات الشخصية أكثر من تعقيدات الهيكل والنظام التعليمي.
تحسين الأداء على تعقيد الهياكل: الكشف الشامل عن المعلومات الشخصية باستخدام الأشجار المعمارية DeBERTa
تتجه أنظمة الكشف عن المعلومات الشخصية نحو تحسين أدائها من خلال دراسة نماذج DeBERTa وتحقيق الكشف الشامل عبر مصادر بيانات متعددة. تشير النتائج إلى أهمية تنوع البيانات التدريبية على الأداء بشكل يتفوق على التعقيد المعماري.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
