لقد تزايد استخدام نماذج اللغات الضخمة (LLMs) في مجالات حيوية للسلامة، مما أثار مخاوف عاجلة بشأن أمان هذه الأنظمة. أظهرت دراسات حديثة أن الهجمات الخفية ضد هذه النماذج يمكن أن تكون فعالة، لكن الطرق المتاحة في الوقت الحالي تعاني من ثلاثة عيوب رئيسية:
1. أنماط التحفيز الواضحة التي تؤثر على طبيعة النص.
2. عدم موثوقية حقن المحتوى المحدد من قبل المهاجمين أثناء إنتاج المحتوى الطويل.
3. نماذج التهديد غير المكتملة والتي تجعل من الصعب فهم كيفية توصيل وتفعيل الأبواب الخلفية في الممارسة العملية.
لتجاوز هذه العيوب، قدم الباحثون إطار عمل جديد يسمى BadStyle، وهو إطار كامل للهجمات الخفية. يستخدم BadStyle نموذجًا للغة كمولد للعينات الملغومة، ليعيد إنتاج عينات ملوثة طبيعية وخفية تحمل أنماط تحفيز غير ملحوظة دون التأثير على المعنى أو السلاسة.
ومن خلال تصميم دالة أهداف مساعدة، يقوم BadStyle بتحسين حقن المحتوى أثناء عملية التدريب الدقيق، مما يعزز ظهور المحتوى المستهدف من قبل المهاجم في الردود على المدخلات الملوثة ويعاقب ظهوره في الردود السليمة.
تجربة هذا الإطار الجديد تم اختبارها على سبعة نماذج لغوية ضخمة، بما في ذلك LLaMA وPhi وDeepSeek وسلسلة GPT، وأظهرت نتائج مثيرة بخصوص معدلات نجاح الهجمات. حققت BadStyle معدلات نجاح مرتفعة للتهديد (ASRs) مع الحفاظ على مستوى عالٍ من الخفاء. حتى في سيناريوهات النشر غير المعروفة أثناء حقن النماذج، فإن الأبواب الخلفية تبقى فعالة.
علاوة على ذلك، تمكن BadStyle من الالتفاف حول دفاعات المدخلات وتمرير دفاعات المخرجات بكل سهولة.
ما رأيكم في هذا التطور المقلق؟ شاركونا في التعليقات!
اكتشاف أساليب جديدة للهجمات الخفية على نماذج اللغات الضخمة: هل نحن في خطر؟
تظهر أبحاث حديثة عن أساليب جديدة للهجمات الخفية على نماذج اللغات الضخمة (LLMs)، مما يثير مخاوف كبيرة حول أمان هذه التقنيات. تعرفوا على الإطار الجديد BadStyle وكيف يمكن أن يؤثر على الأمن السيبراني.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
