في عالم الذكاء الاصطناعي، تظل نماذج اللغات الكبيرة (Large Language Models) عرضة لهجمات متقدمة تُعرف باسم " jailbreak attacks"، والتي تستغل الهيكل الداخلي للتدرجات. ورغم استخدام العارضات النادرة (Sparse Autoencoders) على نطاق واسع لفهم نماذج الذكاء الاصطناعي، إلا أن آثارها على الأمان لا تزال غير مستكشفة بشكل كافٍ.

في دراسة حديثة، تم التركيز على دمج العارضات النادرة في مسارات بقايا المحولات (transformer residual streams) أثناء مرحلة الاستدلال، دون الحاجة إلى تعديل أوزان النموذج أو منع التدرجات. تم تقويم النتائج عبر أربعة عائلات من النماذج (Gemma، LLaMA، Mistral، Qwen) وواجهتين قويتين من الهجمات البيضاء (GCG، BEAST) بالإضافة إلى ثلاثة معايير للاختبار الأسود.

أظهرت النماذج المحسّنة بالعارضات النادرة تقليصاً يصل إلى 5 مرات في معدل نجاح الاختراق مقارنة بالخط الأساس غير المحمي، كما قللت من قدرة نقل الهجمات بين النماذج. ولمعرفة المزيد من التعليمات التفصيلية، تُظهر التحليلات التجريبية (parametric ablations) وجود علاقة خطية بين فانسبة L0 (L0 sparsity) ومعدل نجاح الهجوم، وتوازن يُعرف باسم "tradeoff" بين طبقات الدفاع وكفاءة الأداء.

تشير هذه النتائج إلى فرضية عن الاختناق التمثيلي (representational bottleneck hypothesis): حيث تعيد العارضات النادرة تشكيل هندسة التحسين التي تستغلها الهجمات، مما يبرز أهمية فهم هذه التقنيات لتعزيز أمان نماذج الذكاء الاصطناعي في المستقبل.