في عالم الذكاء الاصطناعي والتعلم العميق، تعتبر الهجمات الخلفية (Backdoor Attacks) تهديدًا كبيرًا يؤثر على فعالية أنظمة التعلم المعزز العميق (Deep Reinforcement Learning - DRL). تعتمد الأساليب الحالية في الدفاع عادةً على اكتشاف الشواذ في المكافآت وإعادة ضبط النماذج للتخلص من آثار هذه الهجمات. إلا أن الأنماط المعقدة للشبكات الخلفية تقلل من قوة هذه الدفاعات، فيما يترتب على عملية التعديل تكاليف عالية تحد من استخدامها العملي.

هنا يأتي دور BehaviorGuard، الإطار المبتكر المخصص للكشف عن السلوكيات غير الطبيعية وحماية أنظمة التعلم المعزز العميق. بدلاً من التركيز على المحفزات المعروفة، يعتمد هذا النظام على سلوكيات ناتجة عن الهجمات، حيث أن السياسات المتضررة تؤدي إلى تحولات ثابتة في توزيعات الأفعال، مما يترك آثارًا قابلة للكشف في المناطق عالية الكمية وأطراف التوزيع، حتى في غياب المحفزات.

استنادًا إلى هذه الرؤى، قام المطورون بتصميم مقياس جديد يلتقط انحراف السلوك في توزيعات الأفعال، مما يساعد على التعرف على الأفعال المتأثرة بالهجوم وقمعها أثناء التشغيل. يعد BehaviorGuard، من معرفتنا، أول نظام دفاعي ضد الهجمات الخلفية يعمل على الإنترنت، ويقدم حماية فعالة لكل من البيئات ذات العميل الواحد ومتعددة العملاء.

عند إجراء تقييمات عبر مجموعات بيانات متنوعة وطرق مختلفة للهجمات الخلفية، أثبت BehaviorGuard كفاءته وفعاليته، متجاوزًا الطرق التقليدية الأخرى.