في عالم الذكاء الاصطناعي، تعتبر [خوارزميات [التعلم](/tag/التعلم) المعزز](/tag/[خوارزميات](/tag/خوارزميات)-[التعلم](/tag/التعلم)-المعزز) أحد الأساليب الأكثر تقدمًا التي تستخدمها الأنظمة لفهم [البيئة](/tag/البيئة) واتخاذ القرارات. لكن ماذا يحدث عندما يعمل المهاجمون على تعطيل هذه النظم من خلال إزالة خيارات معينة؟

تتناول [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تمت الإشارة إليها في ملخصها نُماذج Action Removal في [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) الذاتي (Self-Play [Reinforcement Learning](/tag/reinforcement-learning))؛ حيث يقوم المهاجم بإزالة خيارات [قانونية](/tag/قانونية) من مجموعة خيارات الضحية. بخلاف بعض الهجمات التي تتضمن تغيير الملاحظات أو تشويش الخيارات، فإن إزالة الخيارات تلغي خيارات [اتخاذ القرارات](/tag/اتخاذ-القرارات) قبل أن يتحرك الوكيل، مما يترك تأثيرا عميقا وغير متوقع.

لقد أظهرت النتائج المعتمدة على [دراسات](/tag/دراسات) تجربة مع [ألعاب](/tag/ألعاب) البوكر، حيث تم [تصنيف](/tag/تصنيف) نطاقات الخبرة من 6 إلى 5,531 حالة معلومات، أن إزالة الخيارات التفاعلية تتسبب بأضرار أكبر بكثير مقارنةً بإزالة عشوائية أو خيارات مفزعة تعلمت مسبقًا. الهجوم يستمر [عبر](/tag/عبر) بعض [خوارزميات التعلم](/tag/[خوارزميات](/tag/خوارزميات)-[التعلم](/tag/التعلم)) مثل Q-learning وPPO وDQN، بينما تنمو قوته عند تطبيق [أساليب](/tag/أساليب) [التعلم](/tag/التعلم) من خلال [اللعب الذاتي](/tag/اللعب-الذاتي).

تناول الباحثون تأثير المهاجم الذي يستهدف نقاط [اتخاذ القرار](/tag/اتخاذ-القرار) عالية القيمة، باستخدام قياسات مثل القدرة على [اتخاذ القرارات](/tag/اتخاذ-القرارات) المشروطة (Contingent Action Capacity) المدعومة بالوزن القيمي. تبرز هذه النتائج أهمية توفر الخيارات كسطح [قوة](/tag/قوة) متميز في [استراتيجيات](/tag/استراتيجيات) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) الذاتي.

في النهاية، تفتح هذه النتائج الباب أمام العديد من الأسئلة حول كيفية [حماية الوكلاء](/tag/[حماية](/tag/حماية)-[الوكلاء](/tag/الوكلاء)) من هذه الأنواع من الهجمات، وتدعو المجتمع الأكاديمي والتقني إلى [دراسة](/tag/دراسة) عميقة لهذه الظواهر. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).