تتزايد التحديات التي تواجه [أنظمة](/tag/أنظمة) [التحكم](/tag/التحكم) اللاسلكية المعتمدة على الذكاء الاصطناعي، وأحد أبرز هذه التحديات هو [هجوم](/tag/هجوم) تلوث [المكافآت](/tag/المكافآت) (Reward Poisoning) الذي يمثل خطرًا جدياً على فعالية هذه الأنظمة. وكما يكشف [البحث](/tag/البحث) الجديد حول [هجوم](/tag/هجوم) تلوث [المكافآت](/tag/المكافآت) القائم على الاختلاف (DGRP) المجهز على [وكيل](/tag/وكيل) (Soft Actor-Critic) في [بيئة](/tag/بيئة) الشبكة اللاسلكية المدعومة بالألواح الذكية (Reconfigurable Intelligent Surfaces - RIS).

يتمثل هدف [وكيل](/tag/وكيل) الـ SAC في [تحقيق](/tag/تحقيق) أقصى قدر من معدل المستخدمين الثانويين (Secondary Users - SUs)، مما يعني [تحسين](/tag/تحسين) كل من [قوة](/tag/قوة) الإرسال للمرسل الثانوي وتحولات الطور للـ RIS. لكن، عند وجود اختلافات كبيرة بين النقاد، يصبح دمار [المكافآت](/tag/المكافآت) محتملًا، مما يؤدي إلى تقديرات قيم مشوهة وتوجيه [السياسات](/tag/السياسات) [نحو](/tag/نحو) [إجراءات](/tag/إجراءات) دون المستوى المطلوب.

تكشف النتائج أن [هجوم](/tag/هجوم) DGRP يقلل بشكل كبير من [تحسينات الأداء](/tag/[تحسينات](/tag/تحسينات)-[الأداء](/tag/الأداء)) التي تعود عادة على الأنظمة من استخدام الـ RIS، مما يتسبب في تدهور جودة الإرسال. كما يتناول [البحث](/tag/البحث) [دراسة](/tag/دراسة) مفصلة لناحية الهجوم وما يتطلبه من [معايير](/tag/معايير) رئيسية، مضيفًا أهمية [فهم](/tag/فهم) التهديدات المرتبطة بالاختلافات بين النقاد عند [تقييم](/tag/تقييم) [قوة](/tag/قوة) [تعلم التعزيز العميق](/tag/[تعلم](/tag/تعلم)-التعزيز-العميق) (Deep [Reinforcement Learning](/tag/reinforcement-learning) - DRL) في [الشبكات](/tag/الشبكات) المدعومة بـ RIS.

في ظل التقدم المتسارع في [تقنيات](/tag/تقنيات) الذكاء الاصطناعي، تبرز الحاجة الماسة للفهم العميق لهذه التهديدات وآليات مواجهتها.