في عصر تتزايد فيه الهجمات السيبرانية تعقيدًا، أصبحت الشبكات الحديثة بحاجة ملحة إلى وكلاء دفاع سيبراني مستقلين ذكيين. تُعتمد تقنيات تعلم التعزيز (Reinforcement Learning) لتدريب هؤلاء الوكلاء على استخدام نماذج نيوروسيمبولية (neurosymbolic) مثل أشجار السلوك مع مكونات تعليمية (Learning-Enabled Components) للتكيف مع القواعد الأمنية وتنفيذها.

تعد الشبكات الحالية أنظمة جزئية الملاحظة، مما يعني أن تصرفات الوكيل المهاجم (الوكيل الأحمر) لا يمكن التعرف عليها مباشرة. وهذا يجعل من الصعب على المدافع أن يتنبأ بخطوات الوكيل الأحمر أو يتعلم سياساته، مما يعيق القدرة على تقييم مستويات التسلل.

لمعالجة هذه المشكلة، اقترح الباحثون تقنية تعلم سياسية تعتمد على التعلم بالمحاكاة (imitation learning) لتعليم السياسات لوكلاء التعلم الجزئي الملاحظة، مع وجود حالات وأفعال منفصلة. تم تطبيق هذه التقنية في بيئة سيبرانية مستقلة لتوقع تصرفات الوكيل الأحمر استنادًا إلى ملاحظات الشبكة وأفعال المدافع.

عند دمج هذه التقنية مع وكيل دفاع سيبراني نيوروسيمولي، أثبتت هذه الطريقة أنها قادرة على التعامل مع سياسات مختلفة للوكيل الأحمر وتحقيق دقة توقع عالية في سيناريوهات مختلفة ضمن المحاكاة. هذا الابتكار يعد خطوة كبيرة نحو تعزيز الدفاعات السيبرانية في خضم التهديدات المتزايدة.