في عالم الأمن السيبراني المتطور، يظهر تحدي كبير في فعالية استجابة الحوادث الأمنية. جاء SIR-Bench ليبدأ ثورة جديدة في هذا المجال، حيث يُعتبر معيارًا جديدًا يضم 794 حالة اختبار تهدف إلى تقييم عملاء استجابة الحوادث الأمنية. يعتمد SIR-Bench على 129 نمطًا مُعتمَدة من الحوادث، الأمر الذي يتيح له التمييز بين التحقيقات الجنائية الحقيقية والتنبيهات الآلية المكررة.

يمكن لـ SIR-Bench أن يقيس ليس فقط دقة اتخاذ القرارات، بل أيضًا اكتشاف الأدلة الجديدة من خلال التحقيق النشط. لتحقيق ذلك، تم تطوير إطار عمل مُبتكر يسمى Once Upon A Threat (OUAT)، والذي يعيد تشغيل أنماط الحوادث الحقيقية في بيئات سحابية مُراقَبَة، مما ينتج عنه بيانات حقيقية قابلة للقياس.

تُعرف منهجية التقييم الخاصة بـ SIR-Bench بثلاث مقاييس تكاملية: دقة الاختيار (M1)، اكتشاف النتائج الجديدة (M2)، وملاءمة استخدام الأدوات (M3). وتُقيّم هذه المقاييس من خلال لجان تحكيم ذكية تعتمد على نموذج لغوي عكسي (LLM-as-Judge)، مما يفرض على التحقيقات تقديم أدلة جنائية ملموسة لإثبات صحة النتائج.

أظهرت التجارب على عملاء SIR المُختبرين دقة إيجابية حقيقية تصل إلى 97.1%، ونسبة رفض إيجابيات كاذبة تبلغ 73.4%، مع اكتشاف متوسط 5.67 نتائج جديدة رئيسية لكل حالة. هذا الأساس يُعد نقاط مقارنة مهمة لقياس فعالية العملاء المستقبليين في هذا المجال.