في عالم الذكاء الاصطناعي، تعد نماذج اللغة الضخمة (Large Language Models) من العناصر الأساسية في تطوير التطبيقات الحديثة. ومع تزايد استخدام هذه النماذج، يبرز تحدي عظيم: كيفية تقييم أمان هذه النماذج في غياب مؤشرات معيارية واضحة تُحدد معايير الأمان.

تطرح دراسة جديدة مفهوم "تقييم الأمان المقارن بدون مؤشرات معيارية"، والذي يُعتبر خطوة أولى نحو فهم كيفية إجراء تقييم فعال. يتمثل الهدف في تقديم دليل على فعالية النماذج من خلال منهجية تعتمد على تقييمات مبنية على سيناريوهات معينة.

تقوم الفكرة على استبدال الحاجة إلى التسميات المعتمدة بسلسلة من التقييمات القابلة للقياس والتي تركز على استجابة النموذج لأبعاد معينة من الأمان. تم تطوير أداة تُعرف باسم "SimpleAudit"، وهي أداة تقييم محلية تُطبق على مجموعة معايير أمان نرويجية. النتائج أظهرت أن الأمان يمكن قياسه من خلال تقييم الفروقات بين الأهداف الآمنة والمعدل.

عند الاختبار، بينت الأداة قدرة على التفريق بين النماذج، مع تسجيل قيم AUROC تتراوح بين 0.89 و1.00. كما أظهرت دراسات الحالة، مثل المقارنة بين نموذج Borealis ونموذج Gemma 3، كيف أن النموذج الأكثر أماناً يعتمد على تصنيف السيناريو ومقياس المخاطر المستخدم.

هذه النتائج تُبرز ضرورة تقديم معلومات شاملة عن الأداء، مثل معدلات الخطأ وظروف التقييم المستخدمة، بدلاً من تقليصها إلى تصنيف واحد بسيط. إذًا، كيف يمكننا اتخاذ قرارات مستندة إلى هذه التقييمات المعقدة؟