في عصر يتزايد فيه تهديد الأمن السيبراني، أصبح من الضروري تطوير نظم استجابة ذاتية قوية قادرة على تقليل فترة الاستجابة في مراكز عمليات الأمن (SOC). تقدم الأبحاث الجديدة في نموذج التعلم المعزز المتعدد الوكلاء (Multi-Agent Reinforcement Learning) حلاً مبتكرًا تحت مسمى 'إطار عمل رسم بياني لعقود الأمان' (Safety-Contract Graph MARL)، مما يُمكّن من تعزيز فعالية الأمان مع المحافظة على الانضباط العملياتي.

هذا النهج الجديد، المُسمى ACD³-GAT (Adaptive Constrained Counterfactual Decisioning with a Graph Attention Network encoder)، يدمج ملاحظات المحاكاة مع ميزانيات تشغيلية قابلة للاستخدام وتحسينات متقيدة، مما يؤدي إلى صُنّاع قرار أكثر موثوقية ونظامًا أقوى لمواجهة التحديات الناشئة.

أظهرت التجارب المتمحورة حول تحدي CAGE 4 أن الأساليب غير المقيدة تنتهك ميزانية التوقف في 100% من الحلقات المختبرة، حيث كانت تكاليف التوقف الوسيطة تصل إلى 311-430 مقابل ميزانية صفرية. لكن استخدام C-MAPPO-GAT (Constrained MAPPO-GAT) أحدث فرقاً كبيرًا، حيث قلل انتهاكات التوقف من 100% إلى 0.3% والتكلفة المتوسطة للتوقف من 355.4 إلى 15.5.

علاوة على ذلك، أظهرت ACD³-GAT انخفاضًا في التكلفة المتوسطة للتوقف إلى 48.2 مع معدل انتهاك قدره 13.8%، مما يشير إلى أن هذا الإطار يضع نفسه في طليعة العقود الأمنية بدلاً من التوجه نحو النقاط الأكثر محافظة. وتُظهر اختبارات الإجهاد المرتبطة بالطوبولوجيا والعمليات الحمراء الأخرى انخفاضًا أكبر في التدهور في الأداء بالنسبة للسياسات ذات القيود الأمنية مقارنةً بأسلوب التعلم المعزز القائم على المكافآت فقط.

باختصار، يسلط هذا البحث الضوء على أهمية الدمج بين التقنيات المتقدمة والقيود التشغيلية لخلق حلول أمان شبكي أكثر فعالية. هل تتوقع أن تساعد مثل هذه النماذج الجديدة في تحسين مستوى الأمان السيبراني في المستقبل؟ شاركونا آراءكم في التعليقات.