في عالم تكنولوجيا الذكاء الاصطناعي المتطور، تعاني النماذج متعددة الأنماط الكبيرة (MLLMs) من فجوة ملحوظة في الأمان، حيث لا تستطيع نقل القدرات الأمنية المكتسبة من النصوص إلى المدخلات غير النصية المتشابهة موضوعياً. يتناول بحث حديث هذه الفجوة من منظور هندسي للتمثيل، حيث يحلل اتجاه الرفض المتماشي مع النص واتجاه الانجراف الناتج عن الأنماط.

أظهرت النتائج أن المدخلات متعددة الأنماط تضغط على الفصل القابل للاستخدام على طول اتجاه الرفض، مما يجعلها غير موثوقة في تحديد ورفض المدخلات الضارة. أطلق الباحثون على هذه الحالة التي تحدث اسم "انهيار هندسة الأمان". كما قاموا بقياسها من خلال قابلية الرفض الشرطي، ووجدوا أن الانجراف الناتج عن الأنماط مرتبط بشكل متسق بضعف قابلية الرفض وزيادة معدلات نجاح الهجمات.

ولتصحيح هذا الانجراف، استخدم الباحثون تدخل تنشيط ثابت القوة، حيث أن عكس الانجراف المقدّر يعيد قابلية الرفض ويعزز الأمان في البيئات متعددة الأنماط. وبعد تصحيح الانجراف، لوحظت ظاهرة إعادة التصحيح الذاتي، حيث استعاد النموذج قدرته على التعرف ورفض المدخلات الضارة خلال الديناميكيات المستقبلية. وهذه الظاهرة تتيح للنموذج إشارة داخلية حول مدى ضرر كل إدخال.

استنادًا إلى هذه الإشارة، تم اقتراح طريقة جديدة تدعى "ReGap"، وهي طريقة تعتمد على تصحيح الانجراف بشكل تكييفي خلال وقت الاستدلال وبدون الحاجة إلى تدريب إضافي. أظهرت التجارب على معايير الأمان المتعددة الأنماط ومعايير الاستخدام أن "ReGap" تعزز بشكل كبير من مستويات الأمان في النماذج MLLMs دون التأثير على القدرات العامة.

وتبرز هذه النتائج أهمية توافق الأنماط على مستوى التمثيل كمسار حيوي لتحسين الأمان في الوقت الحقيقي، مما يسهم في بناء نماذج MLLMs أكثر أمانًا وموثوقية.