تواجه نماذج التعليم المسبق للصور والنصوص (Vision-Language Pre-training Models) تحديات كبيرة تتعلق بالهجمات العدائية، التي تكشف عن نقاط الضعف فيها وتساعد في تعزيز فعاليتها. أحد الخصائص الرئيسية لهذه الهجمات هو قابلية النقل بين النماذج، مما يسمح بعمليات الهجوم السوداء القائمة على النماذج البديلة. ولكن تواجه الهجمات الحالية الخطر الناتج عن الاعتماد الزائد على نموذج البديل، مما يؤدي إلى انخفاض الأداء عبر النماذج.

يعود أحد أسباب ذلك إلى أن عملية التحسين العدائي تميل إلى أن تتبع استجابات النموذج البديل أكثر من الاعتماد على الدلالات المدخلة، مما يجعل اتجاه التحديث فعالاً على النموذج البديل ولكنه أقل قابلية للنقل إلى الأهداف غير المعروفة. يسمى هذا الاعتماد بالتحيز الخاص بالنموذج البديل. استناداً إلى هذا المبدأ، تم تطوير تقنية DeBias-Attack، التي تهدف إلى تحسين قابلية النقل عبر تصحيح التحيز الخاص بالنموذج البديل في اتجاهات التحسين العدائي.

تستخدم DeBias-Attack فرعين للاضطراب: الفرع الرئيسي يقوم بتحسين اضطراب على الصورة الأصلية للحصول على التدرج العدائي المستخدم لتعطيل تنسيق الصورة والنص. بينما يقوم الفرع المرجعي بتحسين اضطراب على صورة ذات دلالات ضعيفة تم إنشاؤها من متوسط مجموعة البيانات مع ضوضاء غاوسية صغيرة تُعاد أخذها لكل تكرار.

اعتباراً من أن هذه الصورة ذات الدلالات الضعيفة تحتوي على محتوى بصري غير واضح، فإن تحسينها يعكس استجابات النموذج البديل أكثر من دلالات الصورة، وبالتالي تقدير تدرج المرجع التحيز الخاص بالنموذج البديل. ثم تزيل DeBias-Attack الإسقاط المتناغم للتدرج الرئيسي على التدرج المرجعي قبل تحديث الصورة العدائية، ثم تقوم بإجراء استبدال نصي واعٍ بالسياق باستخدام الصورة العدائية المُحدثة.

تُعد DeBias-Attack أول هجوم يعتمد على النقل في نماذج VLP يقوم بتصحيح التحيز الخاص بالنموذج البديل عبر تصحيح التدرجات. أظهرت التجارب أداءً قوياً عبر نماذج VLP والمهام اللاحقة، سواء في نماذج اللغات الكبيرة مفتوحة المصدر أو مغلقة المصدر. إنها خطوة هامة نحو تعزيز أمن الأنظمة متعددة النماذج وتحقيق في فهم أفضل لكيفية تحسين هذا المجال.