في عالم الذكاء الاصطناعي (AI)، يعتمد العديد من الأنظمة على افتراض أن أي سلوك غير سليم من قبل الوكلاء يعود إلى عدم توافق نموذج (Model Misalignment). لكنّ دراسة جديدة أظهرت وجود فجوة تُعرف باسم "فجوة التخصيص الخاطئ" (Misattribution Gap)، حيث يمكن أن تؤدي هجمات تآكل الذاكرة (Memory Poisoning) إلى سلوكيات تظهر على أنها فشل نماذج، مما يدفع الأنظمة الدفاعية إلى اتخاذ إجراءات تصحيحية خاطئة.

تمت دراسة الظاهرة الجديدة، والتي تُعرف بالت drift في المعايير الدلالية (Semantic Norm Drift)، كمسار ثالث لسوء سلوك الوكلاء، تميزه عن سوء التوافق الناشئ أو التواطؤ. تتضمن العملية إدخال مستند تم تنسيقه كسياسة إلى مخزن شعاعي مشترك، ليظهر لاحقًا كدليل موثوق بعد فقدان موثوقيته من خلال سلسلة من عمليات "غسل الثقة".

على مدار 64 فشلًا موثقًا، كان يتم توجيه اللوم باستمرار إلى النموذج نفسه، بينما فشلت أربعة مصنفات أمان، بما في ذلك واحد مدرب على تآكل الذاكرة، في الكشف عن أي انتهاكات عبر 510 نقطة تفتيش. وبشكل مثير للاهتمام، في 59 من أصل 65 حالة صحيحة، كان الوكلاء يستشهدون بشكل صريح بالمستند المدخل كسلطة معيارية قبل الامتثال.

يتطلب هذا الهجوم عدم الحاجة إلى تفعيل أو الوصول إلى النموذج أو تفاعل متكرر، ويحقق تأثيره الكامل خلال خمس جلسات، كما أنه يستمر إلى أجل غير مسمى. تم تقديم اختبار تركيبة الفرضيات (Counterfactual Composition Testing) للكشف عن المدخل السببي بدقة 87.5% وبدون أي إيجابيات زائفة، بينما فشلت الطرق التقليدية في جميع السيناريوهات الـ 25.

علاوة على ذلك، تثبت الدراسة ما يسمى "معضلة تغطية الاسترجاع" (Retrieval-Coverage Dilemma)، والتي تظهر أن تحسين أساليب التهرب يضعف الهجوم بشكل جذري. وأخيرًا، تم اقتراح التحكم في تدفق المعلومات المستدام في الذاكرة (Memory-Persistent Information-Flow Control)، الذي يحظر 97% من الهجمات عند حدود الجلسة التي تفشل فيها الدفاعات السابقة.

تمت إطلاق مجموعة بيانات "SND Corpus"، التي تمثل أول معيار ذاكرة عدائي مع استدامة زمنية وتركيب متعدد الوكلاء في مجالات المالية والرعاية الصحية. في ضوء هذه الاكتشافات، يتوجب على العاملين في مجال الذكاء الاصطناعي تعزيز أنظمتهم لحمايتها من مخاطر تآكل الذاكرة بشكل أفضل.