تعتبر نماذج الرؤية واللغة (Vision-Language Models، VLMs) من الابتكارات الرائدة في مجال الذكاء الاصطناعي، وقد أثبتت جدارتها في مهام مثل وصف الصور والإجابة عن الأسئلة البصرية (Visual Question Answering، VQA). ومع تزايد استخدامها في مجالات متنوعة، أظهرت الأبحاث الأخيرة أنها عرضة لهجمات العودة، مما يثير التساؤلات حول أمانها.
تتضمن الاستراتيجيات الحالية لهجمات العودة على (VLMs) استخدام التسمم البيني للبيانات عبر إضافة محفزات بصرية وتعديل تسميات النص. وهذه العمليات تؤدي إلى حدوث تباين بين الصور والنصوص، ما يسهل اكتشاف العينات المسمومة. لمواجهة هذه التحديات، قدم الباحثون نموذج العودة النظيف (Clean-Label Backdoor Attack) باستخدام نماذج الانتشار (Diffusion Models).
يعتمد هجوم العودة النظيف على معدلات التصنيف خلال عملية التوليد العكسي لنموذج الانتشار لتوجيه إنشاء العينات المسمومة، مما يضمن وجود ميزات بصرية محفزة. ولتعزيز فعالية الهجوم، يتم تضمين المعلومات النصية للصورة المحفزة كإرشادات متعددة الوسائط أثناء عملية التوليد. مما يجعل الهجوم أكثر سلاسة، تم إدخال قناع مدعوم بكاميرا تدرجات الانتشار (GradCAM-guided Mask) لتقييد التعديلات على المناطق الأكثر أهمية دلالياً، بدلاً من تعديل الصورة بالكامل.
لقد تم تقييم فعالية هذه الطريقة الجديدة على مجموعات بيانات MSCOCO وVQA v2 مع أربعة نماذج تمثيلية من (VLMs)، وتحقيق معدل نجاح عالمي يتجاوز 80% مع الحفاظ على الوظائف العادية. هذه النتائج تفتح آفاقاً جديدة في عالم الأمان الإلكتروني للذكاء الاصطناعي، وتثير تساؤلات حول كيفية مواجهة مثل هذه الهجمات في المستقبل.
ما رأيكم في هذه التطورات المثيرة؟ شاركونا في التعليقات!
هجوم العودة النظيف: أسلوب مبتكر لاستهداف نماذج الرؤية واللغة عبر نماذج الانتشار
تتجه نماذج الرؤية واللغة (VLMs) نحو تحقيق نجاحات غير مسبوقة، لكن دراسة جديدة تكشف عن ضعفها أمام هجمات العودة. هجوم العودة النظيف (CBV) يعد باتجاه جديد وأمناً أكبر بالاستعانة بنماذج الانتشار.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
