في عالم الذكاء الاصطناعي، تعد نماذج اللغة متعددة الوسائط (MLLMs) من أبرز التطورات التي أحدثت ثورة في طريقة تفاعلنا مع التكنولوجيا. إلا أن هذه النماذج ليست محصنة تمامًا. فقد تم الكشف عن نوع جديد من الهجمات يُعرف بـ "هجمات إخفاء النوايا"، التي تهدف إلى تحويل استفسارات ضارة إلى مدخلات مخفية لتجاوز آليات الأمان.
تستند هذه الهجمات إلى مفهوم "التوازن بين الإخفاء وإعادة البناء"؛ حيث يتعين على المدخلات المعدلة إخفاء النوايا الضارة عن فلاتر الأمان، وفي الوقت نفسه، يجب أن تكون قابلة للاسترداد بما يكفي، حتى يتمكن النموذج الضحية من فهم الطلب الأصلي.
من خلال تحليل إعادة البناء لثلاث طرق تمثيلية، وُجد أن التحولات الحالية تعاني من صعوبة في تحقيق هذا التوازن، مما يحد من فعاليتها. بالمقارنة، تظهر المتغيرات التي تتم إزالة الأحرف منها أداءً أفضل في تحقيق التوازن المطلوب.
وبناءً على هذه النتائج، يقترح الباحثون تطوير نموذج يسمى "بناء المتغيرات الواعية للإخفاء"، الذي يختار بشكل ذكي المتغيرات التي تُزيل الأحرف وتكون منخفضة في توافق الكلمات الضارة، بالإضافة إلى تصويرها في سياقات متنوعة من خلال استراتيجيات تحفيز متعددة الحواس. كما تم تقديم "صور مُشوشة ذات علاقة بالكلمات"، التي تعرض الكلمات الضارة في سياقات متنوعة، مما يوفر سياقاً بصريًا مساعدًا أكثر فعالية من الصور العامة.
أظهرت التجارب على نماذج MLLMs مغلقة ومفتوحة المصدر أن الاستراتيجيات المقترحة تتفوق على المعايير القوية، كاشفة عن نقطة ضعف لم تُستكشف بشكل كافٍ: من الممكن استغلال قدرة النموذج على إعادة البناء لاستعادة النوايا الضارة الخفية وإنتاج استجابات غير آمنة.
كيف تعتقد أنه يمكن تعزيز الأمان ضد هذه النوعية من الهجمات؟ شاركونا آرائكم!
الهجوم الذكي: كيف يتجاوز المستخدمون الحواجز الأمنية في نماذج اللغة متعددة الوسائط!
تستعرض الدراسة كيفية استغلال الهجمات القائمة على إخفاء النوايا لتجاوز آليات الأمان في نماذج اللغة متعددة الوسائط (MLLMs). كما تبرز أهمية تحقيق التوازن بين الإخفاء وإعادة البناء لتحسين فعالية هذه الهجمات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
