في عالم تكنولوجيا الذكاء الاصطناعي المتطور، تعاني النماذج متعددة الأنماط الكبيرة (MLLMs) من فجوة ملحوظة في الأمان، حيث لا تستطيع نقل القدرات الأمنية المكتسبة من النصوص إلى المدخلات غير النصية المتشابهة موضوعياً. يتناول بحث حديث هذه الفجوة من منظور هندسي للتمثيل، حيث يحلل اتجاه الرفض المتماشي مع النص واتجاه الانجراف الناتج عن الأنماط.
أظهرت النتائج أن المدخلات متعددة الأنماط تضغط على الفصل القابل للاستخدام على طول اتجاه الرفض، مما يجعلها غير موثوقة في تحديد ورفض المدخلات الضارة. أطلق الباحثون على هذه الحالة التي تحدث اسم "انهيار هندسة الأمان". كما قاموا بقياسها من خلال قابلية الرفض الشرطي، ووجدوا أن الانجراف الناتج عن الأنماط مرتبط بشكل متسق بضعف قابلية الرفض وزيادة معدلات نجاح الهجمات.
ولتصحيح هذا الانجراف، استخدم الباحثون تدخل تنشيط ثابت القوة، حيث أن عكس الانجراف المقدّر يعيد قابلية الرفض ويعزز الأمان في البيئات متعددة الأنماط. وبعد تصحيح الانجراف، لوحظت ظاهرة إعادة التصحيح الذاتي، حيث استعاد النموذج قدرته على التعرف ورفض المدخلات الضارة خلال الديناميكيات المستقبلية. وهذه الظاهرة تتيح للنموذج إشارة داخلية حول مدى ضرر كل إدخال.
استنادًا إلى هذه الإشارة، تم اقتراح طريقة جديدة تدعى "ReGap"، وهي طريقة تعتمد على تصحيح الانجراف بشكل تكييفي خلال وقت الاستدلال وبدون الحاجة إلى تدريب إضافي. أظهرت التجارب على معايير الأمان المتعددة الأنماط ومعايير الاستخدام أن "ReGap" تعزز بشكل كبير من مستويات الأمان في النماذج MLLMs دون التأثير على القدرات العامة.
وتبرز هذه النتائج أهمية توافق الأنماط على مستوى التمثيل كمسار حيوي لتحسين الأمان في الوقت الحقيقي، مما يسهم في بناء نماذج MLLMs أكثر أمانًا وموثوقية.
هل تتفوق نماذج اللغة المتعددة الأنماط في الأمان؟ اكتشافات جديدة حول انهيار هندسة الأمان
تعرض نماذج اللغة المتعددة الأنماط (MLLMs) فجوة في نوعية الأمان عند التعامل مع المدخلات غير النصية. كشف البحث عن انهيار هندسة الأمان وكيفية تصحيح الانجراف المرتبط بالنمط لتحسين الأمان بشكل فعال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
