الدفاع الذكي: كيف يحمي نموذج الذكاء الاصطناعي نفسه من التعديلات الضارة؟

تقديم تقنية 'Safety Bottleneck Regularization' التي تعزز سلامة نماذج اللغات الكبيرة ضد التعديلات الضارة. هذه التقنية تفتح آفاقاً جديدة لحماية الأنظمة الذكية أثناء تفاعلها مع التهديدات.

تظل سلامة نماذج اللغات الكبيرة (Large Language Models) عرضة لخطر التعديلات الضارة (Harmful Fine-tuning). بالرغم من أن الدفاعات الحالية تفرض قيوداً على المعاملات، والتدرجات، أو تمثيلات البيانات الداخلية، إلا أننا لاحظنا أنه يمكن تجاوز هذه الدفاعات بشكل فعال تحت مؤثرات التعديلات الضارة المستمرة. تكشف تحليلاتنا أن هذا الفشل يعود إلى الفائض الجوهري في فضاء المعاملات عالي الأبعاد، حيث يستغل المهاجمون المسارات التحسينية التي تكون عمودية على قيود الدفاع لاستعادة القدرات الضارة بينما يخدعون النظام من خلال الالتزام بقيود السلامة.

لمعالجة هذه الثغرات، نقترح تقنية جديدة تُدعى تنظيم عنق الزجاجة الآمني (Safety Bottleneck Regularization - SBR). هذه التقنية تحول التركيز الدفاعي من فضاء المعاملات الزائد إلى طبقة فك الارتباط، التي تعمل كعنق زجاجة هندسي. من خلال تثبيت الحالات المخفية النهائية للاستفسارات الضارة على تلك الخاصة بالنموذج المتماشي مع السلامة، يسمح SBR للنموذج بالحفاظ على استجابات آمنة رغم وجود التعديلات الضارة المستمرة.

أكدت التجارب الشاملة فعالية SBR، حيث أظهرت أن استخدام نقطة أمان واحدة فقط يكفي لتقليل مستوى الضرر إلى أقل من 10 مع الحفاظ على أداء تنافسي في المهام السليمة.

جاري تحميل التفاعلات...

الدفاع الذكي: كيف يحمي نموذج الذكاء الاصطناعي نفسه من التعديلات الضارة؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!