في عالم الذكاء الاصطناعي، أصبحت نماذج اللغات الضخمة (Large Language Models) حجر الزاوية في العديد من التطبيقات الحديثة، خاصة تلك المتعلقة بالأمان والسلامة. ولكن مع كل تقدم تقني، يظهر دائماً تحدٍ جديد. أحد هذه التحديات هو 'هجوم إعادة توزيع الانتباه' (Attention Redistribution Attack) الذي تم تقديمه مؤخرًا، والذي يُظهر كيف يمكن تجاوز آليات الأمان في هذه النماذج.

هذا الهجوم هو مثال على الهجمات العدائية (adversarial attacks) التي تستهدف الاهتمام الداخلي للنموذج، حيث يتم إدخال رموز غير دلالية (nonsemantic tokens) تعمل على إعادة توجيه الاهتمام بعيدًا عن مناطق الأمان الحساسة. يتجاوز هذا النوع من الهجمات الأساليب التقليدية التي كانت تعتمد على مستوى الدلالات (semantic level) أو مخرجات النموذج (output-logit level) للوصول إلى أهدافه.

من خلال استخدام تحسين (Gumbel-softmax) على الرؤوس المستهدفة، تمكنت تقنية ARA من التفوق على آليات الأمان في نماذج مثل LLaMA-3-8B-Instruct وMistral-7B-Instruct-v0.1. حيث استطاعت هذه التقنية تجاوز الأمان باستخدام عدد قليل من الرموز (tokens) وأرقام منخفضة من خطوات التحسين، محققة نتائج مثيرة للدهشة.

الأبحاث أظهرت أن استبعاد بعض الرؤوس الأكثر أمانًا لا يؤدي إلى فقدان كبير في القدرة على رفض الطلبات الضارة، بينما إعادة توجيه الانتباه عبر ARA قد تمكن من تغيير الاستجابة في الغالبية العظمى من الحالات. هذه النتائج تُظهر أن الأمان لا يمكن اعتباره مجرد مكون قابل للإزالة، بل هو نتاج معقد لعمليات توجيه الانتباه داخل النموذج.

مع تطور هذه التقنيات، تزداد الحاجة إلى فهم كيف يُمكن تحسين آليات الأمان لضمان عدم تعرض النماذج للاستغلال. دعونا نستمر في مراقبة هذا المجال المتطور وكيف يمكن معالجة هذه التحديات التقنية. ما رأيكم في هذه التطورات الجديدة؟ شاركونا في التعليقات!