تلعب الذاكرة دورًا محوريًا في تطوير وكالات الذكاء الاصطناعي، حيث تتيح لها تراكم المعرفة عبر التفاعلات المختلفة وتحسين أدائها بصورة مستمرة. ومع ذلك، فإن وجود ذاكرة دائمة يعرض هذه الوكالات لمخاطر كبيرة، أبرزها هجمات تسميم الذاكرة (Memory Poisoning). في هذه الدراسة الشاملة، نكشف الستار عن طريقة تأثير كتابة الذاكرة المعادية على سلوك الوكيل على المدى الطويل.

حددنا أربعة قنوات لكتابة الذاكرة وتسع ثغرات هيكلية تتعلق بقدرات النموذج، وتصميم أوامر النظام، وهندسة النظام التي تجعل هذه القنوات معرضة للاستغلال. بناءً على هذه الثغرات، قمنا بتطوير تصنيف يتضمن ست فئات من هجمات تسميم الذاكرة.

كما صممنا أداة قياسية جديدة تدعى MPBench، لتقييم مدى فعالية هجمات تسميم الذاكرة، وقد أظهرنا أن الوكلاء الذين تم تصميمهم لكتابة واسترجاع الذاكرة بشكل أكثر قوة يتعرضون للاختراق بشكل أكبر.

علاوة على ذلك، تبين أن دفاعات الحقن الحالية لا تغطي هجمات تسميم الذاكرة، مما يسلط الضوء على الحاجة الملحة لفهم هذه الظاهرة والتعامل معها بفعالية. هذه النتائج توفر أساسًا قويًا لفهم كيفية التخفيف من هجمات تسميم الذاكرة ضد وكالات الذكاء الاصطناعي، وتفتح بابًا جديدًا للنقاش حول سلامة هذه الأنظمة في مواجهة التهديدات المستقبلية.