يواصل الذكاء الاصطناعي البروز كقوة محورية في تطوير نماذج تحويل النصوص إلى صور (Text-to-Image Diffusion Models)، ولكن مع هذا التقدم تأتي مخاوف كبيرة تتعلق بالمخرجات الضارة. فقد لاحظ الباحثون أن هذه النماذج قد تنتج تصويراً مفبركًا لشخصيات عامة أو محتوى جنسي صريح، مما يثير القلق بشأن سلامة وموثوقية هذه التقنية.

للتعامل مع المخاطر المحتملة، اقترحت أعمال سابقة طرقًا لمحو المفاهيم (Concept Erasure) تهدف إلى قطع الروابط غير المرغوب فيها من النموذج عبر عملية التخصيص الدقيق. ومع ذلك، يظل السؤال مطروحًا: هل تتمكن هذه الطرق حقًا من إزالة الروابط بالكامل أم أنها تخفي الاتصالات السطحية فقط؟

لقد كشف بحث جديد عن ثغرة حاسمة تعرف بـ "بوابة الغزو المحو" (Erasure Evasion Backdoor)، حيث يقوم المعتدي بربط محفز خفي بمفهوم مستهدف للإزالة، وتبقى هذه العلاقة الضارة قائمة حتى بعد المحو المزعوم. وقد أظهر الباحثون أن كلًا من المعتدين في الأنظمة المغلقة والعامة يستطيعون استغلال هذه الثغرة، مما يؤكد وجود أزمة حقيقية في الآليات المستخدمة حاليًا.

وعلى مدار ست طرق متطورة لمحو المفاهيم، بما في ذلك تلك التي تبحث عن تمثيلات بديلة للمفهوم المستهدف، كشفت بوابة الغزو المحو عن محتوى ضار بصورة متكررة، بما يصل إلى 82% نجاح في إزالة هوية المشاهير، و94% لإزالة الأجسام، وزيادة تصل إلى 16 ضعفاً في عرض المحتوى الصريح.

وستظل بوابة الغزو المحو تثير النقاش حول السبل المستقبلية لتحسين عمليات محو المفاهيم والتأكيد على ضرورة إجراء اختبارات صارمة لفحص فعالية التقنيات الجديدة. فهل يمكننا تعزيز أمان النماذج الذكية أم أننا سنظل عالقين في دوامة التحديات والمخاطر؟