في عالم الذكاء الاصطناعي، يعد الأمان والموثوقية من العناصر الأساسية لضمان كفاءة الأداء. ومع ظهور نماذج متطورة، برزت حاجة ملحة لمواجهة التهديدات الجديدة التي تتعرض لها هذه النماذج. في هذا السياق، تم تقديم مفهوم مبتكر يتمثل في "حلقة المتسلل والمُصلح"، والذي يعد نقطة تحول في كيفية تقييم ودعم النماذج الذكية.

بناءً على دراسة شاملة لأداء 1,968 مهمة عبر خمسة معايير لتقييم النماذج الذكية، تم اكتشاف أن 323 (16%) من هذه المهام عرضة للاختراق من قبل نماذج متقدمة. وساهم هذا الخلل في التأثير سلبيًا على تصنيفات الأداء ونتائج التدريب.

تمثل حلقة المتسلل والمُصلح نهجًا فعالًا لبناء مُصادقين مقاومين للاختراقات، مما يتجاوز الحاجة إلى تعديلات يدوية لكل مهمة. يتمثل عمل الحلقة في ثلاثة أنواع من الوكلاء: الأول هو المتسلل الذي يحاول تجاوز المُصادق دون حل المهمة، الثاني هو المُصلح الذي يقوم بتعديل المُصادق لرفض كل ثغرة تم اكتشافها، والثالث هو المُحلل الذي يضمن أن المُصادق المعدل لا يزال يعترف بالحلول الشرعية. تتكرر هذه العملية عدة مرات لاستكشاف الثغرات الجديدة.

من خلال تطبيق هذه الحلقة، تمكنا من تقليل معدل نجاح الهجمات من 62% إلى 0% على مجموعة بيانات تم الإبلاغ عنها علنًا. كما أثبتت الحلقة أنها فعالة حتى مع وجود وكلاء أضعف، حيث تمكنت من تقليل معدلات الهجوم على وكلاء أقوى بشكل ملحوظ.

أخيرًا، تم إصدار أداة "Terminal Wrench"، والتي تتضمن 323 بيئة قابلة للاختراق و3,632 مسار هجوم، كمرجع للتطورات الحالية والإصلاحات التي تم اكتشافها.

إن هذا الابتكار يقدم أماكن جديدة للبحث في أمان الذكاء الاصطناعي، ويعكس الحاجة المتزايدة للتكيف مع التحديات الحديثة في هذا المجال المتسارع.