في عالم [تكنولوجيا الذكاء الاصطناعي](/tag/[تكنولوجيا](/tag/تكنولوجيا)-الذكاء-الاصطناعي) المتطور، تعاني [النماذج متعددة الأنماط](/tag/[النماذج](/tag/النماذج)-متعددة-الأنماط) الكبيرة ([MLLMs](/tag/mllms)) من فجوة ملحوظة في الأمان، حيث لا تستطيع [نقل](/tag/نقل) القدرات الأمنية المكتسبة من النصوص إلى المدخلات غير النصية المتشابهة موضوعياً. يتناول [بحث حديث](/tag/[بحث](/tag/بحث)-حديث) هذه [الفجوة](/tag/الفجوة) من منظور هندسي للتمثيل، حيث يحلل اتجاه الرفض المتماشي مع النص واتجاه الانجراف الناتج عن الأنماط.
أظهرت النتائج أن المدخلات متعددة الأنماط تضغط على [الفصل](/tag/الفصل) القابل للاستخدام على طول اتجاه الرفض، مما يجعلها غير موثوقة في تحديد ورفض المدخلات الضارة. أطلق الباحثون على هذه الحالة التي تحدث اسم "انهيار [هندسة](/tag/هندسة) [الأمان](/tag/الأمان)". كما قاموا بقياسها من خلال قابلية الرفض الشرطي، ووجدوا أن الانجراف الناتج عن الأنماط مرتبط بشكل متسق بضعف قابلية الرفض وزيادة معدلات [نجاح](/tag/نجاح) الهجمات.
ولتصحيح هذا الانجراف، استخدم الباحثون [تدخل](/tag/تدخل) [تنشيط](/tag/تنشيط) ثابت القوة، حيث أن عكس الانجراف المقدّر يعيد قابلية الرفض ويعزز [الأمان](/tag/الأمان) في البيئات متعددة الأنماط. وبعد تصحيح الانجراف، لوحظت ظاهرة إعادة التصحيح الذاتي، حيث استعاد النموذج قدرته على [التعرف](/tag/التعرف) ورفض المدخلات الضارة خلال الديناميكيات المستقبلية. وهذه الظاهرة تتيح للنموذج إشارة داخلية حول مدى ضرر كل إدخال.
استنادًا إلى هذه الإشارة، تم [اقتراح](/tag/اقتراح) طريقة جديدة تدعى "ReGap"، وهي طريقة تعتمد على تصحيح الانجراف بشكل تكييفي خلال وقت [الاستدلال](/tag/الاستدلال) وبدون الحاجة إلى [تدريب](/tag/تدريب) إضافي. أظهرت [التجارب](/tag/التجارب) على [معايير الأمان](/tag/[معايير](/tag/معايير)-[الأمان](/tag/الأمان)) المتعددة الأنماط ومعايير الاستخدام أن "ReGap" تعزز بشكل كبير من مستويات [الأمان](/tag/الأمان) في [النماذج](/tag/النماذج) [MLLMs](/tag/mllms) دون التأثير على القدرات العامة.
وتبرز هذه النتائج أهمية [توافق](/tag/توافق) الأنماط على مستوى [التمثيل](/tag/التمثيل) كمسار حيوي لتحسين [الأمان](/tag/الأمان) في الوقت الحقيقي، مما يسهم في [بناء](/tag/بناء) [نماذج](/tag/نماذج) [MLLMs](/tag/mllms) أكثر أمانًا وموثوقية.
هل تتفوق نماذج اللغة المتعددة الأنماط في الأمان؟ اكتشافات جديدة حول انهيار هندسة الأمان
تعرض نماذج اللغة المتعددة الأنماط (MLLMs) فجوة في نوعية الأمان عند التعامل مع المدخلات غير النصية. كشف البحث عن انهيار هندسة الأمان وكيفية تصحيح الانجراف المرتبط بالنمط لتحسين الأمان بشكل فعال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
