تتزايد أهمية الأمان عند العمل مع نماذج اللغات الضخمة (Large Language Models) في وقتنا الحالي، حيث تعود المخاطر المرتبطة باستخدام هذه النماذج إلى عدم القدرة على التحكم في المحتوى المنتج عند استخدام بيانات متعددة الوسائط. تسعى الأبحاث إلى تحسين الأمان من خلال استراتيجيات مثل المحاذاة بعد التدريب أو استغلال توجيهات الرفض في فضاء التنشيط.
ومع ذلك، فإن هذه الاستراتيجيات ليست فعالة في النماذج متعددة الوسائط (Multimodal LLMs) نظرًا لصعوبة جمع بيانات متعددة الوسائط بشكل آمن. في هذا البحث، قمنا بتخفيف هذا القيد من خلال دراسة إمكانية تعميم توجيهات الرفض النصي المستخرجة مباشرة من العمود الفقري لنموذج اللغة على الوسائط المختلفة مثل الصور والفيديو.
لقد أظهرت النتائج الأولية أن هذه القدرة موجودة، غير أن فعاليتها تعتمد على اختيار الطبقات، وشدة التوجيه، والتوافق بين الوسائط، حيث يمكن أن يؤدي الأخير إلى توجيه مدخلات متعددة الوسائط التي تعتبر آمنة نحو الرفض بشكل غير صحيح.
استنادًا إلى هذه النتائج، تم تقديم أسلوب جديد يُعرف باسم توجيه الرفض غير المتعلق بالوسائط (Modality-Agnostic Refusal Steering - MARS)، وهو نهج بسيط لا يحتاج إلى تدريب ويهدف إلى تحسين أمان النماذج متعددة الوسائط دون الحاجة إلى بيانات أمان متعددة الوسائط. يقوم MARS بتصحيح عدم التوافق بين الوسائط من خلال إعادة مركزية التنشيط، ويتكيف مع قوة التوجيه ضمن منطقة ثقة محددة هندسيًا، ويختار الطبقة المثلى للتدخل، مما يؤدي إلى تحسين الأمان باستمرار.
تم تقييم MARS على خمسة نماذج متقدمة متعددة الوسائط، حيث حقق تقدمًا ملحوظًا في الأمان مع الحفاظ على الفائدة، مما يؤكد أن الهيكل المرتبط بالأمان مشترك بين الوسائط وأن التوجيهات النصية تمثل أساسًا قويًا ومهملاً للتوافق بين الوسائط. هذه النتائج تبشر بمستقبل واعد لاستراتيجيات الأمان في عالم الذكاء الاصطناعي المتعدد الوسائط.
استغلال توجيهات الرفض النصي لتحسين سلامة الأنظمة متعددة الوسائط!
تقديم استراتيجية جديدة تعزز سلامة نماذج اللغات الضخمة عبر استخدام توجيهات الرفض النصي. هذا البحث يفتح آفاق جديدة لتحقيق التوافق بين الوسائط المتعددة وتحسين سلامة البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
