PIIBench: معيار موحد للكشف عن المعلومات الشخصية القابلة للتعريف
يُقدم PIIBench معياراً موحداً للكشف عن المعلومات الشخصية القابلة للتعريف في النصوص. يجمع بين عشرة مجموعات بيانات، ليمنح الباحثين تجريباً موحداً وشاملاً.
تمثل PIIBench تطوراً مهماً في عالم تكنولوجيا المعلومات، حيث يهدف إلى تقديم معيار موحد للكشف عن المعلومات الشخصية القابلة للتعريف (PII) في النصوص الطبيعية. يعاني الباحثون في هذا المجال من تفتت الموارد، حيث تقتصر البيانات المتاحة على مجموعات بيانات متخصصة تتبع أنظمة تصنيف غير متوافقة، مما يمنع من إجراء مقارنة منهجية بين أنظمة الكشف المختلفة.
مع PIIBench، تم دمج عشرة مجموعات بيانات متاحة للجمهور تتضمن بيانات PII الاصطناعية، ومقاييس تحديد الكيانات المسماة متعددة اللغات (Named Entity Recognition - NER)، ونصوص معروفة في المجال المالي. ينتج عن هذا دمج 2,369,883 تسلسلًا موصوفًا و3.35 مليون ذكر للكيانات عبر 48 نوعًا موحدًا من المعلومات الشخصية القابلة للتعريف.
لمواجهة التحديات المرتبطة بتنوع أنظمة التصنيف، تم تطوير سلسلة متكاملة من التحويلات تهدف إلى تطبيع أكثر من 80 تنوعًا للعلامات بما يتوافق مع مخطط التصنيف BIO. بالإضافة إلى ذلك، تم تصميم تقسيمات منسقة للتدريب، والتحقق، والاختبار بنسبة 80/10/10 مع الحفاظ على توزيع المصادر.
لتحديد صعوبة الأساس، تم تقييم ثمانية أنظمة منشورة، تتراوح بين محركات قائمة على قواعد البيانات مثل Microsoft Presidio، ونماذج NER العامة تشمل spaCy وBERT-base NER، وحتى نماذج مخصصة مثل Piiranha DeBERTa. على الرغم من كافة المحاولات، كانت جميع الأنظمة المطلوبة تُظهر دقة F1 أقل من 0.14، مما يوضح فعلياً أن التحديات المقدمة بواسطة PIIBench أكثر تعقيداً وشمولية بالمقارنة مع أي مجموعة بيانات PII واحدة موجودة.
يمكن للباحثين والمطورين الاستفادة من كود تقييم المعايير وبنية إنشاء المجموعة المتاحة علنًا عبر الرابط: [PIIBench GitHub](https://github.com/pritesh-2711/pii-bench).
ما رأيكم في هذه التطورات الرائعة في مجال الكشف عن المعلومات الشخصية؟ شاركونا آرائكم في التعليقات!
مع PIIBench، تم دمج عشرة مجموعات بيانات متاحة للجمهور تتضمن بيانات PII الاصطناعية، ومقاييس تحديد الكيانات المسماة متعددة اللغات (Named Entity Recognition - NER)، ونصوص معروفة في المجال المالي. ينتج عن هذا دمج 2,369,883 تسلسلًا موصوفًا و3.35 مليون ذكر للكيانات عبر 48 نوعًا موحدًا من المعلومات الشخصية القابلة للتعريف.
لمواجهة التحديات المرتبطة بتنوع أنظمة التصنيف، تم تطوير سلسلة متكاملة من التحويلات تهدف إلى تطبيع أكثر من 80 تنوعًا للعلامات بما يتوافق مع مخطط التصنيف BIO. بالإضافة إلى ذلك، تم تصميم تقسيمات منسقة للتدريب، والتحقق، والاختبار بنسبة 80/10/10 مع الحفاظ على توزيع المصادر.
لتحديد صعوبة الأساس، تم تقييم ثمانية أنظمة منشورة، تتراوح بين محركات قائمة على قواعد البيانات مثل Microsoft Presidio، ونماذج NER العامة تشمل spaCy وBERT-base NER، وحتى نماذج مخصصة مثل Piiranha DeBERTa. على الرغم من كافة المحاولات، كانت جميع الأنظمة المطلوبة تُظهر دقة F1 أقل من 0.14، مما يوضح فعلياً أن التحديات المقدمة بواسطة PIIBench أكثر تعقيداً وشمولية بالمقارنة مع أي مجموعة بيانات PII واحدة موجودة.
يمكن للباحثين والمطورين الاستفادة من كود تقييم المعايير وبنية إنشاء المجموعة المتاحة علنًا عبر الرابط: [PIIBench GitHub](https://github.com/pritesh-2711/pii-bench).
ما رأيكم في هذه التطورات الرائعة في مجال الكشف عن المعلومات الشخصية؟ شاركونا آرائكم في التعليقات!
📰 أخبار ذات صلة

أبحاث
Claude Mythos: هل يصبح سلاحًا سيبرانيًا فتاكًا في عصر الذكاء الاصطناعي؟
البوابة العربية للأخبار التقنيةمنذ 4 ساعة

أبحاث
هل ستمكننا الذكاء الاصطناعي من السيطرة على العالم؟ رؤى قادة التكنولوجيا
وايردمنذ 7 ساعة
🤖
أبحاث
ديب إر ميد: ثورة الذكاء الاصطناعي في البحث الطبي المعتمد على الأدلة!
أركايف للذكاءمنذ 14 ساعة