في ظل تزايد تطور نماذج اللغات الضخمة (LLMs) وظهور أنظمة قادرة على التفاعل مع أدوات وبيئات خارجية، يبرز أمراً بالغ الأهمية: تعزيز الأمان ضد المخاطر الجديدة مثل هجمات حقن التعليمات غير الموثوقة.

ورغم وجود دفاعات قائمة تركز في معظمها على حجب المحتوى الضار أثناء فترة الاستجابة، إلا أن الأساليب الحالية في "الهجوم الأحمر" (Red-Teaming) تركز غالباً على تحسين نجاح الهجوم، مما يحد من قدرة المطورين على رؤية كيفية ظهور حقن التعليمات الكامنة وانتشارها عبر الوكلاء.

في هذا السياق، يبرز الحل المبتكر "PI-Hunter"، وهو إطار تدقيق تلقائي يهدف إلى كشف الثغرات بشكل استباقي في وكلاء نماذج اللغات. يقوم PI-Hunter بإنشاء حالات اختبار واقعية تستند إلى مصادر معينة ويقوم بتطويرها بشكل تدريجي من خلال استكشاف مدفوع بالتغذية الراجعة، مما يدفع الوكلاء إلى استرجاع وكشف التعليمات الخبيثة الكامنة داخل البيئات الخارجية.

أظهرت التجارب الشاملة عبر عدة معايير وهياكل وكلاء وهجمات ودفاعات أن PI-Hunter يحسن بشكل كبير من كشف الثغرات وتوسيع مساحة الهجوم مقارنة بأسس "الهجوم الأحمر" التلقائية القوية، بينما يظل فعالًا في ظل الدفاعات الحالية ضد حقن التعليمات. هذا التطور يعكس التوجه المستقبلي للحفاظ على أمان أنظمة الذكاء الاصطناعي ويعيد تعريف كيفية التعامل مع المخاطر المتزايدة في هذا المجال.