تشهد تقنيات الذكاء الاصطناعي حراكًا ملحوظًا، خاصة مع التطورات الأخيرة في نماذج الوسائط المتعددة، والتي تقوي من انسيابية المحاذاة بين النصوص والصوتيات. لكن هل تعزز هذه المحاذاة أيضًا نقل الثغرات الأمنية من النصوص إلى الصوتيات؟ هذا السؤال يثير القلق، خصوصًا أن هجمات jailbreak النصية أصبحت أكثر نضجًا من تلك الصوتية، مما يعني أن استخدام المحاذاة للنقل قد يؤدي إلى تقديرات خاطئة عن المخاطر المتعلقة بالصوت من خلال تجاهل المخاطر النصية.

في ورقة بحثية جديدة، تم تقديم مفهوم "لعنة المحاذاة"، وهو مبدأ متمثل في أن المحاذاة الأقوى بين النص والصوت تعزز من فاعلية نقل الهجمات من النص إلى الصوت. يوضح هذا الأمر التوتر الأساسي بين القدرات والأمان. تم إجراء تقييم شامل لثلاث فئات من الهجمات على نماذج حديثة مثل Qwen2.5-Omni وQwen3-Omni، بما في ذلك هجمات النصوص وهجمات الصوت المنقولة والنصوص المتوافقة.

تشير النتائج إلى أن الهجمات الصوتية المنقولة عبر النصوص تؤدي أداء مشابهًا، وغالبًا أفضل من الهجمات المباشرة على الصوت، مما يكشف عن دور محوري للثغرات النصية في تشكيل المخاطر الصوتية. يتضح من التحليل أنه كلما كانت المحاذاة بين الوسائط أكثر قوة، كانت نتائج نقل الهجمات عبر الوسائط أكثر فاعلية. هذا الاكتشاف يدعو لتأملات حول كيفية التعامل مع أمان الأنظمة متعددة الوسائط وكيفية الحماية من أي نقل محتمل للمخاطر.