في عالم متطور من الذكاء الاصطناعي، تبين أن نماذج اللغة الضخمة (LLMs) قادرة على تنفيذ هجمات سيبرانية متعددة المراحل بشكل تلقائي. إلا أن سلوكها الهجومي أثناء التجارب المتكررة لم يحظَ بالدراسة الكافية حتى الآن. تقدم هذه المقالة أول قياسات تجريبية واسعة النطاق لتناسق هجمات هذه النماذج، حيث أجريت 400 تجربة اختراق ذاتي عبر أربعة نماذج مختلفة، تمَّ تخصيص 100 تجربة لكل نموذج.

ركزت التجارب على استهداف بيئة تحتوي على OWASP Juice Shop وخدمات ضعيفة إضافية، مع الحفاظ على استمرارية موجهات الاختراق وتحكم المنظومة. نتائج الدراسة مثيرة للاهتمام؛ فلم يواجه أي نموذج رفض محتوى تأثَّر بتقييم المنظومة عند إعادة التوجيه، خلال التجارب الأولى.

ومع ذلك، واجه نموذج Claude Sonnet 4 مشاكل تتعلق بتوافر الخدمة في بعض مكالماته حيث أظهر 91 من بين 1135 مكالمة خطأ HTTP 529 بسبب زيادة الضغط. هذه الحالات لم تكن مرفوضات من النموذج بل مشاكل في واجهة برمجة التطبيقات. ورغم هذه التحديات، استطاع Claude تنفيذ الهجمة بشكل كامل في 61 من 100 تجربة، بينما حققت Gemini 2.5 Flash-Lite نجاحًا في 85 تجربة. بينما كان أداء GPT-4o-mini في 56 تجربة ونموذج qwen2.5-coder:14b حقق النجاح في 25 تجربة فقط.

تنوعت خيارات الهجمات بشكل ملحوظ، حيث تم اكتشاف 98 استراتيجية هجوم فريدة خلال التجارب. ومن المثير للاهتمام أيضًا أن معدل إعادة استخدام بيانات الاعتماد بين النماذج كان مختلفًا بشكل إحصائي، مما يدل على تأثير كبير من الناحية العملية. أظهرت النتائج أن أول مرة لتنفيذ الهجوم كانت في نطاق زمني يتراوح بين 15 إلى 30 ثانية، مما يبرز سرعة وكفاءة هذه النماذج في استغلال الثغرات.

تعد هذه الدراسة حجر الزاوية الأول في قياس سلوك هجمات LLM المستقلة عبر مجموعة متنوعة من الخدمات، مما يقدم معرفة قيمة لصناع القرار ومختصي الأمن السيبراني في فهم الديناميكيات المعقدة لهذه التكنولوجيا.