في عالم الذكاء الاصطناعي، حققت النماذج اللغوية البصرية (VLMs) تقدمًا ملحوظًا في نمذجة المحتوى المتولد باستخدام مدخلات متعددة الوسائط، مثل النصوص والصور. ومع ذلك، تثير قدرتها على إنتاج محتوى ضار عند مواجهة استفسارات غير آمنة تساؤلات حقيقية حول سلامتها.
يعتمد معظم استراتيجيات المحاذاة الحالية على التعديل الآمن المدعوم علميًا مع مجموعات بيانات مُنقحة، لكننا نكشف هنا عن قيود أساسية تُعرف بـ 'سراب الأمان'. حيث تؤدي عملية التدريب المدعوم أحيانًا إلى تعزيز علاقات سطحية بين الأنماط النصية الاستثنائية واستجابات الأمان، بدلاً من تحقيق تخفيف حقيقي للضرر.
ما هو أسوأ من ذلك، أن هذه العلاقات المضللة تجعل النماذج في وضع غير مؤاتٍ، حتى أمام هجوم بسيط يعتمد على تغيير كلمة واحدة. فعند استبدال كلمة واحدة في استفسارات النص بكلمة أخرى تثير ارتباطًا مضللًا، يمكن تجاوز الحمايات القائمة بسهولة.
بالإضافة إلى ذلك، تسهم هذه العلاقات في المبالغة في الحذر، مما يؤدي إلى رفض النماذج بشكل غير مبرر لاستفسارات غير ضارة.
لكن الأمل موجود! حيث نقدم 'التعلم الآلي العكسي' كبديل قوي للتعديل الآمن المدعوم. هذه التقنية تجنبه تحويلات الميزات المستندة إلى العلامات، وتزيل المعرفة الضارة من النماذج، مع الحفاظ على قدراتها العامة.
أظهرت التقييمات الواسعة النطاق عبر معايير الأمان أن المحاذاة القائمة على التعلم الآلي العكسي تقلل من معدل نجاح الهجمات بنسبة تصل إلى 60.27%، وتقطع من الرفض غير الضروري بنسبة أكثر من 84.20%.
في النهاية، يظل السؤال الأهم: ماذا تعني هذه التطورات لسلامتنا في عالم الذكاء الاصطناعي؟ تفاعلوا معنا في التعليقات!
هل تعيش في عالم زائف من الأمان؟ كيفية التصدي لتهديدات النماذج اللغوية البصرية!
يكشف بحث جديد عن مشكلة 'سراب الأمان' في النماذج اللغوية البصرية (VLMs) وكيف يمكن أن تؤدي العلاقات السطحية إلى محتوى ضار. لكن هناك أمل! تقنية 'التعلم الآلي العكسي' قد تكون الحل الفعّال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
