في عالم الذكاء الاصطناعي (AI)، يتعرض وكلاء نماذج اللغات الضخمة (Large Language Models) لتهديدات أمان ملحوظة، وخاصةً من خلال حقن الموجه غير المباشر (Indirect Prompt Injection - IPI). أصبح هذا التهديد محط اهتمام للباحثين، حيث تم اقتراح عدة أساليب دفاعية لحماية هذه الأنظمة. يمكن تصنيف هذه الأساليب إلى ثلاث فئات رئيسية:

1. **الدفاع المبني على الموجهات**: حيث يُستخدم الموجه كمقياس لمنع الوكلاء من اتباع تعليمات ضارة.
2. **الدفاع المبني على الكشف**: وهو يتضمن التعرف على التعليمات الضارة وتصفيتها.
3. **الدفاع على مستوى النظام**: الذي يعتمد على رؤى النظام مثل التحكم والعزل البياني.

ومع ذلك، فإن المعايير المستخدمة حاليًا لتقييم الدفاعات، مثل AgentDojo، تكون بشكل عام ثابتة، مما يعني أنها تولد توزيعًا ثابتًا لهجمات IPI. وهذا يعني أن هذه المعايير لا تقيم مقاومة الدفاعات ضد التهديدات التكيفية بشكل فعال.

للتصدي لهذه المشكلة، تم تطوير AutoDojo، وهو توسيع تكيفي لـ AgentDojo، يقوم بتحسين هجمات IPI تجاه دفاع محدد. باستخدام AutoDojo ضد الدفاعات الحديثة لـ IPI عبر ثلاث مجموعات من المهام وخمسة نماذج مستهدفة، توصل الباحثون إلى ملاحظتين رئيسيتين.

**الملاحظة الأولى**: العديد من الدفاعات تقدم حماية محدودة فقط. تعرضت الدفاعات لشكل هجوم تكيفي رخيص، حيث رفع معدل نجاح الهجوم (Attack Success Rate - ASR) إلى مستوى مرتفع جدًا، متجاوزًا بشكل كبير النجاح الذي حققه الهجوم الثابت ضد معظم الدفاعات المُقَيمة. على سبيل المثال، أمام مرشح يعيد معدل النجاح الثابت إلى 0٪، تمكن AutoDojo من استعادة 28٪ بشكل عام و64٪ في المهام المفتوحة.

**الملاحظة الثانية**: بالنسبة للدفاعات المبنية على الموجهات والمرشحات، كان معدل النجاح أعلى بكثير في المهام المفتوحة، حيث يقوم طلب المستخدم بتفويض الإجراء نفسه لمحتوى تحت سيطرة المهاجم، مقارنة بالمهام المحددة بدقة. هذه ظاهرة هيكلية حيث يمكن أن يظهر الحقن على أنه بيانات عادية بدلاً من تعليمات واضحة، متجاوزًا الدفاعات التي تعتمد على كشف نص يشبه التعليمات.

إن AutoDojo متاح الآن للجمهور، يمكنك تحميله وتجربته عبر الرابط التالي: AutoDojo على GitHub. هل أنتم مستعدون لاستكشاف هذه التقنية الثورية؟ شاركونا آرائكم في التعليقات!