تعتلي نماذج الذكاء الاصطناعي (AI) صدارة التكنولوجيا الحديثة، إلا أن الخطر يكمن في التركيبة المعقدة للدفاعات المستخدمة ضد الهجمات الخبيثة، حيث أظهرت دراسة جديدة أن هذه الدفاعات ليست كما تبدو. تصدر نماذج التغذية الراجعة (Fine-tuning) في الآونة الأخيرة، وتتسم بالفتحات المفتوحة المغرية لمزودي النموذج والمستخدمين على حد سواء، مما يعرضها لاحتمالات إساءة الاستخدام.

تعد هذه النماذج آمنة قبل إصدارها، ولكن يمكن أن تُحلل حمايتها بواسطة التغذية الراجعة على بيانات ضارة. بينما تتجه بعض الدفاعات لمحاولة تأمين هذه النماذج، فإن معظمها يتم تقييمه ضد هجمات ثابتة لا تأخذ بعين الاعتبار تطورات الدفاعات.

توصل الباحثون من خلال دراسة شاملة لخمسة عشر دفاعاً مؤخراً إلى أن جميع آليات الدفاع تمتلك نقطة ضعف واحدة؛ حيث أنها تشتت الانتباه أو توجه المسار نحو السلوك الضار دون إزالة السلوك نفسه. وللأسف، لا توفر هذه الأساليب الحالية أماناً قوياً، بل تقتصر على هجمات معينة كانت مُصممة لمواجهتها.

من خلال تطوير هجوم تكيفي موحد، استطاع الباحثون إثبات أن هذه الدفاعات يمكن استغلالها بسهولة، مما يدعو إلى إعادة التفكير في كيفية تصميم الدفاعات ضد مثل هذه التهديدات المتطورة. تكمن أهمية هذا البحث في أنه يسلط الضوء على الحاجة إلى اختبارات دقيقة لصلاحية الدفاعات الجديدة قبل اعتمادها في بيئات العمل الحقيقية، وهو ما يأمل الباحثون أن يُحفز البحث المستقبلي في هذا المجال.