ما زالت نماذج اللغات الضخمة (Large Language Models) تواجه تهديدات خطيرة بسبب هجمات الخلفية (Backdoor Attacks)، حيث يقوم المهاجمون بتسميم بيانات توجيه الأمان لتضمين المحفزات الخفية التي تتجاوز آليات الأمان. في ظل عدم توفر حلول فعالة تدافع عن النماذج، ظهر برنامج باتشر كحل مبتكر لمعالجة هذه الثغرات بطريقة عملية وفعالة.

يعتمد برنامج باتشر على إطار عمل يتكون من مرحلتين رئيسيتين. في المرحلة الأولى، يتم تحديد المحفزات الخفية من خلال حساب درجات السلاسة المعتمدة على استجابة النموذج، وتطبيق التجميع التكيفي لفصل المحفزات عن السياقات السليمة. أما في المرحلة الثانية، يقوم البرنامج بإصلاح النموذج من خلال هدف تنقيح مقيد يكسر العلاقة بين المحفز والاستجابة، مع الحفاظ على أداء المهام السليمة ومتانة النموذج أمام الهجمات غير المحفزة عبر قيود كولباخ-ليبلير (KL-divergence).

أُجريت تقييمات شاملة لبرنامج باتشر عبر استراتيجيات متعددة للهجمات الخلفية، وتمكن البرنامج من تحديد المحفزات وإبطال التأثيرات الضارة، مع الحفاظ على فعالية النموذج. كما أثبت البرنامج قوته ضد الهجمات المتكيفة التي تهدف إلى التهرب من الدفاعات. يُعتبر هذا العمل خطوة هامة نحو تعزيز الدفاعات العملية ضد الهجمات التي تحدث أثناء مرحلة التدريب للنماذج النمطية.

إن إدخال أسلوب باتشر يعد قفزة نوعية في سعي المجتمع العلمي نحو تحقيق أمان أقوى للنماذج اللغوية، مما يبشر بمستقبل أكثر أمانًا لمستخدمي هذه التقنية الثورية!