في عالم الذكاء الاصطناعي المتطور، نشهد ازدهارًا في أساليب الأمان الموضوعة لحماية نماذج اللغة الكبيرة (Large Language Models). ولكن رغم هذا الزخم، تفتقر معظم الدراسات إلى تقييم شامل ومنهجي لتلك الأساليب.

عبر دراسة جديدة، تم تقييم خمس استراتيجيات دفاعية تشمل عدم وجود دفاع، التوجيه الثابت، CAST، AlphaSteer، والدفاع باستخدام البروب (probe-gated)، وذلك عبر سبع نماذج محكية (تتراوح من 7 إلى 31 مليار معلمة) وخمس أنواع من الهجمات مثل GCG وAutoDAN وDeepInception.

تظهر النتائج أن الدفاعات الحالية في وقت تفعيل الطلبات تعاني من نقص كبير في الاستجابة لهجمات الحشو، حيث كانت تقنية AlphaSteer قادرة على تحقيق نجاح دفاعي يصل إلى 0% ضد بعض الهجمات، بينما كانت النسبة 50% ضد الهجمات المرتبطة بالحشو.

وقد تم إثبات وجود علاقة موازية بأن أي نظام دفاع يعتمد على تنسيق تفعيل طبقة واحدة مع مرجع ودود، سيكون عميلاً تجاه الهجمات التي تتصيد التفعيلات لتقع ضمن تلك الإشارة.

لذا، تم تقديم تقنية جديدة تُعرف بـ 'استجابة زمن البروب': وهي بروب خطي على حالة النموذج المخفية عند الرموز التي تم إنشاؤها أولاً، مما تحقق إدارة فعالة للنجاح الدفاعي بنسبة 0% على جميع النماذج.

تظهر النتائج أيضًا أن دمج هذه التقنية مع استراتيجية AlphaSteer يعطي تحليلاً دقيقاً يمكنه الكشف عن الهجمات والاستجابة بشكل أفضل للأضرار، مما يحقق نجاحاً دفاعياً مدهشًا. وبالإضافة إلى ذلك، تُظهر الدراسة أن المجموعات التدريبية السلبية المتنوعة يمكن أن تقلل بشكل كبير من الإيجابيات الكاذبة.

هل أنتم مستعدون لاستكشاف المزيد عن أمان الذكاء الاصطناعي؟ ما رأيكم في هذه التطورات الجديدة؟ شاركونا في التعليقات.