في عصر الذكاء الاصطناعي، برزت نماذج اللغة الكبيرة (Large Language Models) كأدوات قوية، لكنها تواجه تهديدات متزايدة بفعل هجمات الباب الخلفي (Backdoor Attacks). ولقد عكف الباحثون على دراسة هذه الظاهرة لكشف الخلل في الأساليب الدفاعية الحالية.
تظهر دراسة جديدة نشرت على موقع arXiv أن هجمات الباب الخلفي ليست حالات عشوائية مستقلة، بل ترتكز على آلية خفية مشتركة يمكن رصدها والتحكم فيها. بالاستعانة بأجهزة ترميز تلقائية خفية (Sparse Autoencoders)، تم تحديد مجموعة صغيرة من الميزات الخفية التي يتم تنشيطها باستمرار عبر أنماط متعددة من السلوكيات العدائية، مثل كسر الحماية، والتحكم في الرفض، وتوليد نصوص منحازة.
تُظهر النتائج أن هذه الميزات تتجاوز حدود نماذج مثل Qwen3 وGemma3 وLlama 3.1، التي تتراوح سعتها من 4 مليار إلى 32 مليار معلمة. كما أظهرت الدراسات أن استخدام التنشيط الثنائي الاتجاه يمكن أن يكون له تأثير مباشر، حيث أن تعزيز هذه الميزات يمكن أن يؤدي إلى سلوكيات مستهدفة عند التعامل مع موجهات نظيفة.
أحد الابتكارات المهمة هو تطوير مصنفات خفيفة القوام تستند إلى ميزات الأجهزة الترميزية، وهو ما يعزز من القدرة على رصد هجمات جديدة غير مسبوقة. علاوة على ذلك، تم تقديم تقنية جديدة تدعى "تدريب إضعاف المفهوم" (Concept Ablation Fine-Tuning)، التي تساعد في تقليل احتمالية تشكيل أبواب خلفية من خلال إضعاف العناصر الخفية خلال عملية التدريب.
تجسد هذه الدراسة خطوة كبيرة نحو تعزيز الأمان في نماذج اللغة الكبيرة، حيث تقدّم منهجًا موحدًا للكشف عن الهجمات والتخفيف منها من خلال الاعتماد على الآليات المشتركة.
اكتشاف آلية خفية للكشف عن هجمات الباب الخلفي في نماذج اللغة الكبيرة!
تظهر دراسة جديدة أن هجمات الباب الخلفي في نماذج اللغة الكبيرة تعتمد على آلية خفية مشتركة. هذه النتائج تفتح آفاقاً جديدة للكشف والتخفيف من هذه الهجمات بفعالية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
