في عصر المعلومات، تتزايد المخاوف حول تسريبات بيانات الاعتماد في مستودعات الأكواد المفتوحة. وفقًا لتقارير حديثة، تعرضت البيانات السرية لأكثر من 23.8 مليون حالة تسريب في عام 2024 وحده، مما يجعل من الضروري ابتكار تقنيات موثوقة وتحسين أدوات الكشف الحالية.
تواجه الأدوات المتاحة حاليًا تحديات كبرى، حيث تعاني من معدلات إيجابية خاطئة مرتفعة. تعتمد هذه الأدوات بشكل كبير على أنماط متطابقة rigid أو تصنيفات ثنائية، الأمر الذي يعيق قدرتها على التفريق بين بيانات الاعتماد الحقيقية والوهمية. هذا الاختلاف هو ما يعمل عليه فريق البحث الذي يقترح نموذج تصنيف ثلاثي الفئات.
النموذج الجديد يستند إلى فهم دلالي قوي مُعزز عبر CodeBERT، ويجمع بين التعرف على الأنماط على مستوى الأحرف والتصنيفات المتعددة. بعد تقييم المنهجية على مجموعة بيانات تضم 9,426 عينة من 10 لغات برمجة، حقق النموذج دقة ملحوظة. حيث سجل معامل ارتباط ماثيوز (Matthews Correlation Coefficient) 0.86 ونسبة F1 ماكرو بلغت 0.90، بالإضافة إلى دقة 93% و89% للكشف عن تسريبات بيانات الاعتماد الحقيقية، مما أسفر عن تقليص الإنذارات الشديدة بنسبة 33.0% (من 373 إلى 250) دون التضحية بتغطية الأمان.
وعند مقارنتها بالأساليب السابقة المعتمدة على مستوى الأحرف، يحقق هذا النموذج تحسنًا كبيرًا في الكشف عن بيانات الاعتماد الضعيفة، حيث ارتفعت نسبة F1 من 54% إلى 81%، مع الحفاظ على عمومية قوية عبر اللغات. 9 من أصل 10 لغات حققت نسبة F1 أعلى من 0.80 في تقييم ترك لغة واحدة خارجًا.
كيف تضمن أمان بياناتك في زمن متزايد من التهديدات التقنية؟ ما رأيكم في هذه التقنية الجديدة؟ شاركونا في التعليقات!
اكتشاف تسريبات بيانات الاعتماد: إطار هجين يجمع بين CNN وCodeBERT لكشف النقاط الحساسة بدقة متناهية
تسريبات بيانات الاعتماد تمثل تهديداً أمنياً حاسماً، حيث تم الكشف عن أكثر من 23.8 مليون سر في عام 2024 فقط. يطرح بحثنا الجديد نموذج تصنيف ثلاثي الفئات يعزز من دقة الكشف عن بيانات الاعتماد الحقيقية مقابل النماذج الضعيفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
