في عالم الذكاء الاصطناعي، تبرز هجمات الحقن كأحد التهديدات المتزايدة التي تواجه نماذج اللغات الضخمة (Large Language Models). تهدف هذه الهجمات إلى استغلال قنوات الإدخال غير المباشرة مثل الرسائل الإلكترونية أو المحتوى المولد من قبل المستخدم، لتجاوز تدابير الأمان المطبقة وإنتاج نتائج ضارة أو غير متوقعة. على الرغم من تحقيق تقدم ملحوظ في مواءمة هذه النماذج، تبقى العديد منها عرضة لهذه الهجمات الخبيثة، مما يستدعي جهودًا مستمرة لتطوير آليات كشف فعالة وقابلة للتطبيق بشكل شامل.

ويبرز هنا ابتكارنا الجديد: اكتشاف انحراف التضمين بدون عينة (ZEDD). تعتبر ZEDD إطار عمل خفيفًا مع انخفاض التكاليف الهندسية، حيث تستطيع تحديد محاولات الحقن، سواء كانت مباشرة أو غير مباشرة، من خلال قياس التغيرات الدلالية في فضاء التضمين بين المدخلات السليمة والم suspect.

تعمل ZEDD بدون الحاجة إلى الوصول إلى المكونات الداخلية للنموذج، أو معرفة مسبقة بأنواع الهجمات، أو إعادة تدريب نموذج محدد للمهام، ما يجعل تنفيذها سلسًا عبر هياكل متعددة من نماذج اللغات الضخمة. تعتمد طريقتنا على أزواج من العبارات النقية المصممة لمواجهة الهجمات، باستخدام قياس التشابه الزاوي لالتقاط التلاعبات الخبيثة.

لتأكد من دقة التقييم، قمنا بتجميع وإعادة توضيح مجموعة بيانات LLMail-Inject التي تشمل خمس فئات من الحقن. وأظهرت التجارب الواسعة التي أجريناها أن انحراف التضمين يعد إشارة قوية قابلة للنقل، حيث تفوقت ZEDD على الطرق التقليدية من حيث دقة الاكتشاف وكفاءة التشغيل.

مع دقة تزيد عن 93% في تصنيف حقن التحفيز عبر هياكل مثل Llama 3 وQwen 2 وMistral، ومعدل إيجابيات كاذبة يبلغ أقل من 3%، توفر طريقتنا طبقة دفاع خفيفة وقابلة للتوسع يمكن دمجها ضمن أنظمة نموذج اللغات الضخمة الحالية، مما يعالج فجوة حرجة في تأمين النظم المعتمدة على الذكاء الاصطناعي ضد التهديدات المتطورة.