في عالم الذكاء الاصطناعي، يبدو أن التهديدات تتطور جنباً إلى جنب مع التكنولوجيا. مؤخرًا، تم الكشف عن نوع جديد من الهجمات تحت مسمى تقسيم النوايا الدلالية (Semantic Intent Fragmentation - SIF) يستهدف نظم تنسيق نماذج اللغة الكبيرة (Large Language Models).

تحدث هذه الهجمة عندما يؤدي طلب مبني بشكل صحيح إلى تقسيم المهمة إلى مهام فرعية تبدو كل واحدة منها غير ضارة، لكنها في المجمل تنتهك السياسات الأمنية. وعلى الرغم من أن آليات الأمان الحالية تعمل على مستوى المهام الفرعية، مما يجعل كل خطوة تمر بنجاح عبر عمليات التصنيف، إلا أن الانتهاك يظهر فقط عند مستوى الخطة المركبة.

تستغل تقنية SIF ثغرات معينة وفقًا لمعيار OWASP LLM06:2025، مستخدمة أربعة آليات رئيسية: تصعيد النطاق بشكل جماعي، خروقات البيانات الصامتة، نشر المحفزات المدمجة، وتجميع المعرفات شبه. والأمر المثير أن هذا الهجوم لا يتطلب أي محتوى مُدخل، ولا تعديلات على النظام، ولا تفاعل من المهاجم بعد الطلب الأولي.

طُورت عملية اختبار دفاعية ثلاثية المراحل مستندة إلى معايير OWASP وMITRE ATLAS وNIST، لتوليد سيناريوهات واقعية في بيئات الشركات. عند اختبار 14 سيناريو، بما في ذلك تقارير مالية وأمان معلومات وتحليلات الموارد البشرية، أنتج مُنسق GPT-20B خططًا تنتهك السياسات في 71% من الحالات (10 من 14) رغم أن كل مهمة فرعية كانت تبدو غير ضارة.

تم التأكد من ذلك عبر ثلاثة دلائل مستقلة: تحليل تصنيف حتمي، تقييم سلسلة الأفكار، وحكم مطابقة عبر النماذج مع 0% من النتائج السلبية الكاذبة. كما أظهرت البيانات أن تعزيز قوة المنسقين يزيد من معدلات نجاح SIF. علاوة على ذلك، فإن متابعة تدفق المعلومات على مستوى الخطة وتقييم الامتثال يمكن أن تكشف جميع الهجمات قبل تنفيذها، مما يدل على أن الفجوة الأمنية في التراكيب قابلة للإغلاق.