تظل سلامة نماذج اللغات الكبيرة (Large Language Models) عرضة لخطر التعديلات الضارة (Harmful Fine-tuning). بالرغم من أن الدفاعات الحالية تفرض قيوداً على المعاملات، والتدرجات، أو تمثيلات البيانات الداخلية، إلا أننا لاحظنا أنه يمكن تجاوز هذه الدفاعات بشكل فعال تحت مؤثرات التعديلات الضارة المستمرة. تكشف تحليلاتنا أن هذا الفشل يعود إلى الفائض الجوهري في فضاء المعاملات عالي الأبعاد، حيث يستغل المهاجمون المسارات التحسينية التي تكون عمودية على قيود الدفاع لاستعادة القدرات الضارة بينما يخدعون النظام من خلال الالتزام بقيود السلامة.

لمعالجة هذه الثغرات، نقترح تقنية جديدة تُدعى تنظيم عنق الزجاجة الآمني (Safety Bottleneck Regularization - SBR). هذه التقنية تحول التركيز الدفاعي من فضاء المعاملات الزائد إلى طبقة فك الارتباط، التي تعمل كعنق زجاجة هندسي. من خلال تثبيت الحالات المخفية النهائية للاستفسارات الضارة على تلك الخاصة بالنموذج المتماشي مع السلامة، يسمح SBR للنموذج بالحفاظ على استجابات آمنة رغم وجود التعديلات الضارة المستمرة.

أكدت التجارب الشاملة فعالية SBR، حيث أظهرت أن استخدام نقطة أمان واحدة فقط يكفي لتقليل مستوى الضرر إلى أقل من 10 مع الحفاظ على أداء تنافسي في المهام السليمة.