في عالم الذكاء الاصطناعي، تعد النماذج عرضة للمهاجمين الذين يستخدمون ما يعرف بسلوكيات "الختان الخلفي" (Backdoor Trigger Behaviors)، حيث يتمكن القراصنة من التلاعب بالنموذج بطريقة تؤثر سلبًا على أدائه. لكن الباحثين قدموا مؤخرًا تقنية جديدة تُعرف باسم InstantForget تهدف إلى حماية النماذج من هذه الهجمات بدون الحاجة إلى تحديث مستمر لها.

تقوم فكرة InstantForget على عدم تغيير معلمات النموذج عند إلغاء سلوكيات الاختراق. لقد تمت الدراسة على فرضية عرض شائعة، حيث تم اختبار فعالية طريقة العرض على نوعين رئيسيين من المحفزات، وتم التوصل إلى أن تقنية InstantForget أثبتت فعاليتها في تقليل متوسط معدل النجاح (ASR) لمجموعة من المحفزات دون الحاجة لنماذج معطلة أو تحديثات في المعلمات خلال النشر.

عمليًا، تستخدم InstantForget نظامًا موحدًا لتمييز الميزات الشاذة باستخدام درجة Mahalanobis، مما يعطي مرونة كبيرة للنموذج في التخلص من العناصر الضارة. وتمكنت التقنية من تحقيق مستوى دقة ممتاز يبلغ 0.981 في عمليات الكشف عن المحفزات الضارة.

ما ميز InstantForget هو قدرتها على تطبيق الحلول دون الحاجة إلى وجود عينات مستهدفة أو تغييرات في معلمات النموذج مما يجعلها خطوة ثورية في مجال أمان الذكاء الاصطناعي. ومع أن النتائج ليست مثالية، إلا أن الدراسة تبين مستقبل واعد لتحسين أمان الأنظمة الذكية.

في ضوء هذه التطورات، هل تتوقع أن تصبح تقنيات مثل InstantForget معيارا للأمان في الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!