تتجه أنظمة الذكاء الاصطناعي ذات الطبيعة الوكيلة (Agentic AI) بشكل متزايد إلى استخدام مكونات نماذج اللغة (Language Models) لتحليل التعليمات ومعالجة البيانات الخارجية والتفاعل مع أدوات متعددة وتنسيق العمل مع وكلاء آخرين. إلا أن هذه القدرات جعلت من الهجمات مثل الحقن في الاستعلام (Prompt Injection) وهجمات كسر الحماية (Jailbreak Attacks) أكثر خطورة، خصوصًا مع اعتماد المهاجمين على الأتمتة الموجهة بالنماذج (Model-Guided Automation) لتوسيع نطاق الاستهداف وتحسين الاستعلامات وتقييم الردود.

تشير نتائج الدراسات الحالية إلى أن الدفاعات التقليدية القائمة على الاكتشاف والإغلاق قد تسمح بزيادة معدل نجاح المهاجم (Attacker Success Rate - ASR) لتتجه نحو الواحد كلما زاد ميزانية الاستعلامات، حيث تتيح الرفض المتوقع تغذية مفيدة للبحث الآلي. بالتالي، تم استكشاف استراتيجية الاكتشاف والتوجيه الخاطئ (Detect-and-Misdirect)، حيث تتلقى التفاعلات الخبيثة المكتشفة استجابات موجهة بعناية وغير تشغيلية تصمم لتوليد أخطاء إيجابية زائفة في تقييم المهاجم.

تعمل هذه الاستراتيجية على تقليل القيمة التنبؤية الإيجابية للخيارات المحددة من قِبل المهاجمين، مما ينتج عنه معدل نجاح محدود. تم تقييم نسق تجريبي لهذه الاستراتيجية من خلال تقنية التوجيه الخاطئ السياقي (Contextual Misdirection via Progressive Engagement - CMPE)، وهي أسلوب محادثة خفيف مصمم لاستبدال نص الرفض المتوقع باستجابات آمنة ولكن مضللة استراتيجياً في بيئات كسر الحماية الأوتوماتيكية.

في اختبارات كسر الحماية، استطاعت تقنية CMPE تقليل الحدود العليا المقدرة لمعدل نجاح المهاجم بمقدار يصل إلى مرتين، مما أدى تقريبًا إلى القضاء على النجاح المؤكد للهجوم في عمليات التشغيل الكاملة مثل PAIR وGPTFuzz.