في عصر تتزايد فيه أهمية الأمان الرقمي بشكل ملحوظ، أصبحت الثغرات الأمنية (Vulnerabilities) في البرمجيات تمثل تهديدًا بالغ الخطورة. مع تزايد استخدام طرق البرمجة والأطر الحديثة، باتت طرق الكشف اليدوي عن هذه الثغرات مكلفة ولا تتناسب مع حجم الإنتاج المتزايد للبرمجيات.

على مدى العقد الماضي، جرى توظيف تقنيات التعلم الآلي (Machine Learning) في محاولة لأتمتة الكشف عن الثغرات (ML4AVD)، ولكن الأداء الذاتي المبلغ عنه على أكثر مجموعات البيانات شهرة لا يُظهر أي اتجاه تصاعدي واضح. وقد حدد مجتمع البحث في ML4AVD عدة عيوب في صيغ المشكلة ومجموعات البيانات والمعايير، إلا أن هذه العيوب تم مناقشتها بشكل منعزل، مما ترك القضايا الكبرى التي تولد وتعزز هذه العيوب دون معالجة.

وقد قامت دراسة شاملة على 87 عملاً مؤثرًا في هذا المجال بتنظيم المعلومات، حيث تم تحليل صيغ المشكلة، ودقة الإدخال والكشف، ولغات البرمجة المستهدفة، والمعايير المستخدمة، ومجموعات البيانات، وأساليب الكشف. من خلال هذا التحليل، تم تحديد 12 نقطة ألم تغطي العملية الكاملة لــ ML4AVD، وتم إثبات أنها مرتبطة ببعضها البعض، مما يؤدي إلى دوراتٍ تغذي نفسها. تركز هذه الحلقات على التصنيف الثنائي لثغرات C/C++ على مستوى الوظائف، مما يعيق القدرة على التنبؤ بنوع الثغرات، ويوسع نطاق دعم اللغات، ويفصل بين دقة الإدخال والكشف.

للتغلب على هذه الدوران السلبية، تقترح الدراسة توصيات ملموسة تتماشى مع كل نقطة ألم. في النهاية، استخدمت الدراسة AIxCC كحالة دراسية لتقييم مدى توافق الجهود الحديثة مع هذه التوصيات، مما يعكس مدى أهمية تقنيات ML4AVD في زمن الذكاء الاصطناعي القادر على اتخاذ القرارات.