في ظل التطورات السريعة في مجال الذكاء الاصطناعي، تُعتبر نماذج اللغات الضخمة (Large Language Models) جزءًا أساسيًا من العديد من التطبيقات التكنولوجية. ومع ذلك، يثير تقييم الأمان السلوكي لهذه النماذج تساؤلات حول فعاليته وقدرته على الكشف عن ثغرات الأمان الأساسية.

لقد تم التركيز تقليديًا على تقييم السلوك الخارجي للنماذج، مما جعلنا ندرك أن هذا النهج يعطي رؤية محدودة عن القوة الداخلية لتلك النماذج. على وجه التحديد، تظهر نتائج جديدة أن الفجوة التي يمكن تسميتها "فجوة التدقيق" تتعلق بالاختلاف بين تقييم الأمان السلوكي ومرونة النموذج تحت التدخل.

قمنا بإنشاء نماذج مفصولة تقوم بالحفاظ على سلوك آمن خارجيًا بينما تظل عرضة للإصابة في الفضاء الكامن. من خلال إدخال إطار تقييم يعتمد على التدخل، يمكن اختبار مرونة النموذج من خلال التدخلات اللينة في الفضاءات المعاملاتية والكامنة، بما في ذلك التخصيص الضار واضطرابات الطبقات.

لإضفاء طابع رسمي على هذا التقييم، اقترحنا مقياس ضعف العناصر الكامنة (Latent Vulnerability Score) لقياس مدى سهولة استدعاء سلوك ضار عبر اضطرابات كامنة محدودة. يشير تحليل النتائج إلى أن مقاييس أمان السلوك ليست كافية لقياس مرونة التمثيل على مستوى نماذج وتقنيات متطورة مختلفة.

من المثير للدهشة، أن النماذج المفصولة تظهر معدلات LVS مرتفعة بشكل ملحوظ على الرغم من سلوك الرفض المقارن تحت التدخل الضار، حيث تُعتبر التمثيلات الوسيطة الأكثر حساسية تجاه التدخل. هذه النتائج تدل على أن التركيز على تقييم الأمان السلوكي وحده لا يوفر صورة كاملة لمرونة النموذج، مما يحفز على إجراء مراجعات واعية للتمثيل الداخلي ونقاط الضعف السلوكية.