في عالم الذكاء الاصطناعي، تظل نماذج اللغات الكبيرة (Large Language Models) عرضة لهجمات متقدمة تُعرف باسم " jailbreak attacks"، والتي تستغل الهيكل الداخلي للتدرجات. ورغم استخدام العارضات النادرة (Sparse Autoencoders) على نطاق واسع لفهم نماذج الذكاء الاصطناعي، إلا أن آثارها على الأمان لا تزال غير مستكشفة بشكل كافٍ.
في دراسة حديثة، تم التركيز على دمج العارضات النادرة في مسارات بقايا المحولات (transformer residual streams) أثناء مرحلة الاستدلال، دون الحاجة إلى تعديل أوزان النموذج أو منع التدرجات. تم تقويم النتائج عبر أربعة عائلات من النماذج (Gemma، LLaMA، Mistral، Qwen) وواجهتين قويتين من الهجمات البيضاء (GCG، BEAST) بالإضافة إلى ثلاثة معايير للاختبار الأسود.
أظهرت النماذج المحسّنة بالعارضات النادرة تقليصاً يصل إلى 5 مرات في معدل نجاح الاختراق مقارنة بالخط الأساس غير المحمي، كما قللت من قدرة نقل الهجمات بين النماذج. ولمعرفة المزيد من التعليمات التفصيلية، تُظهر التحليلات التجريبية (parametric ablations) وجود علاقة خطية بين فانسبة L0 (L0 sparsity) ومعدل نجاح الهجوم، وتوازن يُعرف باسم "tradeoff" بين طبقات الدفاع وكفاءة الأداء.
تشير هذه النتائج إلى فرضية عن الاختناق التمثيلي (representational bottleneck hypothesis): حيث تعيد العارضات النادرة تشكيل هندسة التحسين التي تستغلها الهجمات، مما يبرز أهمية فهم هذه التقنيات لتعزيز أمان نماذج الذكاء الاصطناعي في المستقبل.
ثورة في أمان نماذج الذكاء الاصطناعي: كيف أن العارضات النادرة تكافح الهجمات الخبيثة
تظهر دراسة جديدة أن العارضات النادرة (Sparse Autoencoders) يمكن أن تقلل من نجاح الهجمات الخبيثة على نماذج اللغات الكبيرة (LLMs) بشكل كبير. من خلال دمجها في بنية المحولات، تحقق نماذج مُعززة تقليصاً يصل إلى 5 مرات في معدلات الاختراق.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
