في إطار تطوير أدوات الدفاع السيبراني، تم مؤخراً تقديم مؤشر الدفاع السيبراني (Cyber Defense Benchmark) كأداة لتقييم مدى فعالية نماذج اللغة الضخمة (Large Language Models) في مجال مطاردة التهديدات. تتناول هذه الدراسة قدرة الوكلاء الأذكياء على تنفيذ مهمة تحليل الأحداث المشبوهة من سجلات الأحداث الخاصة بنظام ويندوز.
يتم استخدام مجموعة بيانات تحتوي على 106 إجراءً هجومياً حقيقياً من قاعدة بيانات OTRF، والتي تغطي 86 تقنية فرعية من نماذج MITRE ATT&CK عبر 12 تكتيكاً. تم إدراج هذه البيانات في بيئة محاكاة تعتمد على التعلم المعزز، حيث تقدم كل تجربة للوكيل قاعدة بيانات SQLite تحتوي على ما بين 75,000 إلى 135,000 سجل. تتطلب هذه المهمة من الوكيل إرسال استعلامات SQL بشكل متكرر لتحديد أوقات الأحداث الضارة.
أُجريت اختبارات على خمسة نماذج رائدة منها Claude Opus 4.6 وGPT-5 وGemini 3.1 Pro، ولكن النتائج كانت مخيبة للآمال. حيث وجد أن أفضل نموذج (Claude Opus 4.6) تمكن من تحديد علامات صحيحة فقط ل3.8% من الأحداث الضارة. ولم ينجح أي نموذج في تحقيق الحد الأدنى المطلوب من الدقة.
تشير هذه النتائج إلى أن نماذج اللغة الحالية لا تتناسب بشكل جيد مع متطلبات مطاردة التهديدات المفتوحة، رغم أدائها الجيد في اختبارات الأمان المنسقة. كيف يمكن لتحسينات الذكاء الاصطناعي أن تعزز من فعالية هذه النماذج في المستقبل؟
مؤشر الدفاع السيبراني: تقييم مطاردة التهديدات باستخدام نماذج اللغة في عمليات الأمان
تم تقديم مؤشر الدفاع السيبراني لتقييم فعالية نماذج اللغة الضخمة في مهام مطاردة التهديدات. النتائج تشير إلى أن هذه النماذج لا تصلح تمامًا لهذا الغرض، حيث فشلت جميعها في تحقيق العلامة المطلوبة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
