في عالم الذكاء الاصطناعي (AI)، يشكل تقييم الهجمات مقارنة بين النماذج أمرًا معقدًا، حيث يختزل التقييم التقليدي الهجمات إلى نتيجة ثنائية واحدة، وهي نسبة نجاح الهجوم (Attack Success Rate - ASR). لكن ماذا لو استطعنا الغوص أعمق لفهم كيفية استجابة نماذج اللغات الضخمة (Large Language Models - LLMs) للهجمات بشكل أكثر تفصيلاً؟

في دراسة جديدة تم نشرها على منصة arXiv، تم اقتراح استخدام تقنيات استخراج العمليات (Process Mining) لفهم سلوك نماذج مثل GPT-OSS 120B وLlama 3.3 70B أمام الهجمات. حيث تم إجراء تجربة خاضعة للرقابة باستخدام 60 حالة هجوم مرتبطة بمؤشرات HarmBench، و10 استراتيجيات تحوير للمضمون، وصلت إلى 110 محاولة لكل حالة.

تجاوز عدد الأحداث الم scored 8575، مما سمح باستخراج رسومات بيانية توضح كيفية مقاومة النماذج للهجمات أو الاستسلام لها. المفاجأة كانت في النتائج: أظهرت GPT-OSS حالة رفض قريبة من امتصاص الهجمات، فيما قدمت Llama خيارات متعددة للهروب من حالة الرفض إلى افساح المجال للهجوم الناجح.

المثير للاهتمام أكثر هو أن فعالية استراتيجيات التحوير كانت غير متساوية بين النموذجين، حيث تختلف التوزيعات الزمنية للهجمات الناجحة بشكل ملحوظ.

هذه الدراسة تعيد تعريف كيفية تقييم قوة النماذج في مواجهة التهديدات، مما يفتح آفاقاً جديدة لفهم هجمات الذكاء الاصطناعي وتصميم دفاعاتها بشكل أكثر ذكاءً.

ما رأيكم في هذا التطور؟ شاركونا في التعليقات!