تظل هجمات الاختراق تهديداً رئيسياً لنشر نماذج اللغات الضخمة (LLMs) بشكل آمن. على الرغم من أن الأعمال السابقة ركزت أساساً على الهجمات والدفاعات على مستوى المدخلات، فإن الدراسة الحديثة تكشف عن ثغرة هيكلية مهمة في البيئات التي تتطلب استدعاء الدوال. في هذا السياق، يتم دمج المخططات المعرفة من قبل المطور، والأطراف غير الموثوقة، والبيانات المنظمة ضمن نموذج واحد مشترك، مما يوسع مساحة الهجوم.

هذه الهندسة المعمارية تُعزز التداخل بين منطق التحكم الموثوق والبيانات غير الموثوقة، مما يسمح بنقل النوايا العدائية عبر مسارات تنفيذ متعددة. هنا يأتي دور تقنية الهندسة المعمارية المبتكرة المسماة SMT، وهي إطار هجوم يعتمد على تتبع التحكّم المُحاكى. بدلاً من التفاعلات المعتمدة فقط على المدخلات، يقوم SMT بإنشاء مسار متعدد التفاعلات يحاكي تدفق تدقيق قانوني مشروع.

خلال هذا المسار، يتم استخدام إطار تحكّم مُفبرك كذريعة لاستدراج توليدات ضارة، بينما تُعتبر عمليات الرفض المتعلقة بالسلامة كإخفاقات تنفيذ، مما يثير تحسينات تقلل تدريجياً من قيود السلامة في النموذج، مما يؤدي إلى مخرجات ضارة.

تظهر التقييمات التجريبية الشاملة على نماذج لغوية تجارية بارزة من خمسة مزودين مختلفين عبر معيارين موحدين للسلامة أن SMT تحقق باستمرار أعلى معدل نجاح للهجمات وHarmScore، مع الحاجة إلى عدد قليل جداً من الاستفسارات، متفوقة بشكل كبير على الأسس الحالية.

تؤكد هذه النتائج أن التصحيحات على مستوى المدخلات وحدها غير كافية لحماية أنظمة نماذج اللغات الضخمة المدعومة بالأدوات، مما يبرز الحاجة الملحة إلى التحقق الذكي الذي يأخذ في الاعتبار المخططات، والأطراف، ونتائج الأدوات، وحالة المحادثات المتراكمة.