في السنوات الأخيرة، أصبح استخدام التعلم التعزيزي (Reinforcement Learning) أكثر شيوعًا في مجموعة من التطبيقات الحقيقية، لكن مع هذه الشعبية العالية تبرز الحاجة الملحة لتأمين أنظمة التعلم هذه. ففي التوجهات الحديثة، تم الكشف عن نقاط الضعف التي يعاني منها عملاء التعلم التعزيزي، وعلى وجه الخصوص، تعرضهم للهجمات الخفية المعروفة بتهديدات "الباب الخلفي" (Backdoor Attacks).

تقوم هذه الهجمات بتمكين العملاء الضحايا من التصرف بشكل طبيعي في الظروف القياسية، لكنهم يقومون بأفعال ضارة عندما يتم تفعيل محفز معين. رغم وجود حلول للدفاع عن العملاء ضد هذه التهديدات، فإن معظمها يعتمد على الوصول إلى المعلمات الداخلية للعميل أو يعمل فقط على مستوى النموذج أو المسار، أو يقتصر على أنواع محددة من الهجمات.

لذا، تم تقديم "PolicyGuard"، وهو نظام دفاعي متقدم يعمل على مستوى الخطوات الزمنية. يعتمد هذا النظام على تقدير خطأ عملية Gaussian Process (GP) ويستخدم المسارات الوهمية (Pseudo Trajectories) لتمكين حساب عدم اليقين على مستوى كل خطوة من الزمن.

الأدلة النظرية التي تدعم فعالية "PolicyGuard" تعزز من مكانته في مجال الأمن السيبراني للتعلم التعزيزي. من خلال التجارب الشاملة التي تمت عبر سبعة ألعاب مختلفة، أظهر "PolicyGuard" أداءً ممتازًا في اكتشاف الهجمات، حيث حقق معدل AUROC يبلغ 0.856 للهجمات القائمة على الاضطراب (Perturbation-based Attacks) و0.859 للهجمات من عملاء المهاجمين (Adversary-agent Attacks).

هذا البحث الجديد يسلط الضوء على أهمية تعزيز أمان أنظمة التعلم التعزيزي في ظل التهديدات المتزايدة، مما يعد خطوة هامة نحو جعل هذه التقنيات أكثر أمانًا وموثوقية.