تشهد صناعة نماذج التعلم اللغوي (LLM) تطورًا ملحوظًا في استخدامها، مما أتاح لها تنفيذ مهام مستقلة بفضل البروتوكولات مثل بروتوكول سياق النموذج (MCP). ومع ذلك، فإن هذه التفاعلية تفتح أبوابًا جديدة لهجمات خفية تستهدف طبقات التخطيط الإدراكي لهذه الوكلاء.
تمثل الدراسة الحالية خطوات هامة في هذا المجال عبر تقديم نموذج جديد يسمى تلوث وصف الأدوات (TDP)، حيث يتم حقن تعليمات خبيثة ليس في الكود القابل للتنفيذ، بل في البيانات الوصفية الخاصة بالأداة، أي "الكتيب" الذي يعتمد عليه الوكيل في تخطيطه وقراراته.
قدم الباحثون معيار أمان MCP-TDP الذي يتضمن 32 حالة اختبار حقيقية تشمل 6 فئات مختلفة من المخاطر. أظهرت نتائج تقييم 8 نماذج LLM شائعة أن هناك ثغرات خطيرة، حيث أظهر نموذج GPT-4o معدل نجاح هجمات يصل إلى 100% في السيناريوهات عالية المخاطر.
علاوة على ذلك، أثبتت النتائج أن الدفاعات التقليدية مثل حواجز التنبيه غالبًا ما تكون غير فعالة، بل يمكن أن تكون ضارة. هنا، تم اقتراح آلية دفاع مبتكرة تُدعى "التصحيح الذاتي التفاعلي"، التي تتيح للوكيل اكتشاف وإلغاء أفعاله الخبيثة بشكل تلقائي بعد التنفيذ.
تقدم هذه الدراسة أول معيار أمان متخصص لتلوث وصف الأدوات، مما يوفر رؤى مهمة لتأمين الطبقات الإدراكية والتخطيطية للأنظمة العميقة المتطورة.