في عصر الذكاء الاصطناعي، تركز العديد من تقنيات تقييم الأمان لنماذج اللغة (Language Models) على الهجمات الواضحة والمهام ذات المخاطر المنخفضة. ومع ذلك، تكمن المشكلة الحقيقية في أن المهاجمين يمكنهم بسهولة تلاعب هذه الدفاعات من خلال طلب المساعدة في مهام صغيرة تبدو غير ضارة. يمكن أن يكون هذا النوع من الهجمات صعب الاكتشاف، حيث أن الاستفسارات الفردية لا تبدو خطيرة، لكن عند تجميعها، يمكن أن تعزز الهجمات من قدرات المهاجم في إتمام مهام خطيرة ومعقدة.

لمواجهة هذه الاستراتيجيات، تم تطوير نظام "Benchmarks for Stateful Defenses" (BSD)، وهو خط أنابيب لتوليد البيانات يقوم بأتمتة تقييمات الهجمات الخفية والدفاعات المناسبة. من خلال هذا النظام، تم جمع مجموعتين جديدتين من البيانات التي ترفضها النماذج المتطورة باستمرار، وتعتبر صعبة للغاية على النماذج الأقل قوة.

هذا يسمح لنا بتقييم الهجمات النفسية، والتي وجد أنها عوامل تمكين فعالة للاستخدام السيئ، ويُسلط الضوء على الدفاعات المستندة إلى الحالة (Stateful Defenses) كإجراء مضاد واعد. بالاستفادة من تقنيات جديدة وأساليب بديلة، يمكننا تعزيز الأمان وتحسين فعالية نماذج اللغة في مواجهة المخاطر المتزايدة.