شهد عالم الأمن السيبراني خطوات متقدمة في استخدام الذكاء الاصطناعي، خصوصاً مع ظهور نماذج اللغات الضخمة (Large Language Models) التي يُقترح استخدامها في مهام حماية المعلومات. لكن، حتى الآن، لم تتضح فعالية هذه الوكالات في السياقات الهجومية الواقعية.

من هنا، تم تقديم أداة جديدة تُدعى DeepRed، التي تعمل كمعيار مفتوح المصدر لتقييم أداء الوكلاء المعتمدين على النماذج اللغوية في تحديات "التقاط العلم" (Capture The Flag - CTF) ضمن بيئات افتراضية معزولة. هذه الأداة تتميز بقدرتها على وضع الوكيل في بيئة هجوم تشمل أدوات طرفية، مع إمكانية إجراء بحث عبر الإنترنت، ويكون متصلًا عبر شبكة خاصة بتحدي معين، مع تسجيل كامل لتتبع التنفيذ.

للتعبير عن الأداء بدقة أكبر، تم تقديم طريقة تقييم تعتمد على نقاط الائتمان الجزئي، المستندة إلى نقاط تقييم خاصة بالمهمة مأخوذة من تحليل عام للكتابات، بالإضافة إلى عملية تلقائية لتلخيص النتائج ومن ثم تقييم الإنجاز من السجلات. باستخدام DeepRed، تم تصنيف عشرة نماذج لغوية تجارية على عشرة تحديات CTF، تغطي فئات متنوعة.

كشف الاختبار أن أداء هذه الوكالات محدود حتى الآن؛ إذ لم يحقق أفضل نموذج سوى 35% من إنجاز النقاط المفترضة, حيث كانت النتائج أفضل في أنواع التحديات الشائعة، وأضعف في المهام التي تستلزم الإبداع والاكتشاف غير المعياري، وكذلك التكيف طويل الأمد.