في عالم الذكاء الاصطناعي، تعتبر [خوارزميات [التعلم](/tag/التعلم) المعزز](/tag/[خوارزميات](/tag/خوارزميات)-[التعلم](/tag/التعلم)-المعزز) أحد الأساليب الأكثر تقدمًا التي تستخدمها الأنظمة لفهم [البيئة](/tag/البيئة) واتخاذ القرارات. لكن ماذا يحدث عندما يعمل المهاجمون على تعطيل هذه النظم من خلال إزالة خيارات معينة؟
تتناول [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تمت الإشارة إليها في ملخصها نُماذج Action Removal في [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) الذاتي (Self-Play [Reinforcement Learning](/tag/reinforcement-learning))؛ حيث يقوم المهاجم بإزالة خيارات [قانونية](/tag/قانونية) من مجموعة خيارات الضحية. بخلاف بعض الهجمات التي تتضمن تغيير الملاحظات أو تشويش الخيارات، فإن إزالة الخيارات تلغي خيارات [اتخاذ القرارات](/tag/اتخاذ-القرارات) قبل أن يتحرك الوكيل، مما يترك تأثيرا عميقا وغير متوقع.
لقد أظهرت النتائج المعتمدة على [دراسات](/tag/دراسات) تجربة مع [ألعاب](/tag/ألعاب) البوكر، حيث تم [تصنيف](/tag/تصنيف) نطاقات الخبرة من 6 إلى 5,531 حالة معلومات، أن إزالة الخيارات التفاعلية تتسبب بأضرار أكبر بكثير مقارنةً بإزالة عشوائية أو خيارات مفزعة تعلمت مسبقًا. الهجوم يستمر [عبر](/tag/عبر) بعض [خوارزميات التعلم](/tag/[خوارزميات](/tag/خوارزميات)-[التعلم](/tag/التعلم)) مثل Q-learning وPPO وDQN، بينما تنمو قوته عند تطبيق [أساليب](/tag/أساليب) [التعلم](/tag/التعلم) من خلال [اللعب الذاتي](/tag/اللعب-الذاتي).
تناول الباحثون تأثير المهاجم الذي يستهدف نقاط [اتخاذ القرار](/tag/اتخاذ-القرار) عالية القيمة، باستخدام قياسات مثل القدرة على [اتخاذ القرارات](/tag/اتخاذ-القرارات) المشروطة (Contingent Action Capacity) المدعومة بالوزن القيمي. تبرز هذه النتائج أهمية توفر الخيارات كسطح [قوة](/tag/قوة) متميز في [استراتيجيات](/tag/استراتيجيات) [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) الذاتي.
في النهاية، تفتح هذه النتائج الباب أمام العديد من الأسئلة حول كيفية [حماية الوكلاء](/tag/[حماية](/tag/حماية)-[الوكلاء](/tag/الوكلاء)) من هذه الأنواع من الهجمات، وتدعو المجتمع الأكاديمي والتقني إلى [دراسة](/tag/دراسة) عميقة لهذه الظواهر. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).
تأثير إزالة الخيارات: كيف تضعف الهجمات الموجهة التعلم المعزز الذاتي
تتناول الدراسة الجديدة تأثير إزالة خيارات العمل في التعلم المعزز الذاتي، حيث يقوم المهاجم بإزالة خيارات قانونية من مجموعة خيارات الضحية. النتائج تشير إلى أن هذا النوع من الهجوم أكثر فعالية من غيره ويؤثر على خوارزميات متعددة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
