تواجه نماذج اللغة الكبيرة (Large Language Models) تهديدات حقيقية جراء هجمات الأبواب الخلفية، والتي تتسبب في تحويل الأنظمة الآمنة إلى أدوات ضارة عند تفعيل محفزات مخفية. في إطار سعي العلماء لتحسين الأمان السيبراني في هذه النماذج، تم تقديم دراسة جديدة تهدف إلى تحسين نماذج اللغة الملوثة دون الحاجة إلى إعادة التدريب الكامل.
تستند هذه الدراسة إلى إطار عمل مُستند إلى التحليل الهيكلي، يقوم أولاً بتحديد الوحدات المسؤولة عن تصعيد السلوك الضار من خلال استخدام تقنيات مثل التصحيح النشط وتحليل انحناء فيشر (Fisher) وK-FAC. بعد تحديد الوحدات المتأثرة، يتم تطبيق إصلاح منخفض الرتبة على الوحدات الأكثر تأثيرًا.
تجري الاختبارات على نماذج ملوثة مثل Llama-3.2-1B-Instruct، حيث تم إدخال المحفزات في أماكن متعددة ضمن المدخلات. تُظهر النتائج أن المنهجية المقترحة قادرة على كبح الاستجابات الضارة المشروطة بالمحفزات، مع الحفاظ على سلوك النموذج الطبيعي.
تشير هذه النتائج إلى أن إزالة الأبواب الخلفية في نماذج اللغة يمكن أن تُعتبر مشكلة إصلاح هيكلي محلية، بدلاً من أن تُقتصر فقط على محاذاة سلوكية واسعة. يبدو أن هذه الطريقة تمثل خطوة مهمة نحو تعزيز سلامة نماذج الذكاء الاصطناعي من التهديدات الحقيقية.
تحدي هجمات الأبواب الخلفية: تقنية جديدة لتحسين نماذج اللغة الكبيرة!
تقدم دراسة جديدة منهجاً مبتكراً لإزالة الهجمات الخلفية من نماذج اللغة الكبيرة دون الحاجة إلى إعادة تدريبها بالكامل. تعتمد الطريقة على إصلاح هياكل محددة فقط للتخلص من السلوكيات الضارة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
