في عالم الذكاء الاصطناعي المتطور، تتزايد الاعتماديات على حالات الذاكرة المستمرة التي تشمل النصوص، الملخصات، والسياقات المسترجعة لدعم تفاعلات طويلة الأمد. تُعد السلامة هنا معتمدة ليس فقط على مخرجات النماذج الفردية، بل أيضًا على ما يقوم الوكيل بتخزينه وإعادة استخدامه لاحقًا. وفي هذا السياق، نشأت دراسة حديثة تناقش ظاهرة تسمى "غسل الذاكرة" (memory laundering)، حيث يمكن أن يتم ضغط السياقات السلبية أو العدائية في ملخصات ذاكرية تُظهر في النهاية معدلات سلبية أقل مما يظهره الكاشف القياسي، بينما تحتفظ بالإطارات العدائية أو الهيكل الصراعي الذي يؤثر على الأجيال المستقبلية.

استنادًا إلى تجارب متعددة الوكلاء واستخدام جولات موازية، أظهر الباحثون أن الملخصات ذات المصادر السلبية قد تبقى دون عتبات السمية الشائعة، رغم أن ذلك يزيد من السمية في النتائج اللاحقة مقارنة بالأرقام المحايدة. وللقياس هذه التأثيرات الخفية، تم تقديم مفهوم الفجوة الانتشارية دون العتبة (Sub-threshold Propagation Gap—SPG) الذي يقيس الاختلافات السلوكية المحتملة بناءً على حالات الذاكرة التي قد يصنفها مراقب خارجي على أنها آمنة.

تُظهر التجارب أن السمية تتنقل عبر قنوات الذاكرة المختلفة: إعادة استخدام النصوص الخام تؤدي إلى سميّة واضحة، بينما يحمل الذاكرة المضغوطة تأثيرات خفية دون العتبة. وتبين النتائج أيضًا أن التخفيف من المخاطر يعتمد بشكل حاسم على المكان الذي يتم فيه التدخل. إذ أن تطهير الحالة السلبية قبل تلخيصها يقلل بشكل ملحوظ من الفجوة الانتشارية الخفية، بينما يؤدي تنظيف الملخص المكتمل فقط إلى بقاء التأثيرات المغسولة.

تشير هذه النتائج إلى أن السلامة في الوكلاء المعززين بالذاكرة يجب أن تُعتبر مشكلة تحكم بالحالة، حيث ينبغي تطبيق عمليات التطهير قبل ضغط المعلومات غير الآمنة في الذاكرة المستمرة.