في عالم الذكاء الاصطناعي، تبرز هجمات الحقن كأحد التهديدات المتزايدة التي تواجه نماذج اللغات الضخمة (Large Language Models). تهدف هذه الهجمات إلى استغلال قنوات الإدخال غير المباشرة مثل الرسائل الإلكترونية أو المحتوى المولد من قبل المستخدم، لتجاوز تدابير الأمان المطبقة وإنتاج نتائج ضارة أو غير متوقعة. على الرغم من تحقيق تقدم ملحوظ في مواءمة هذه النماذج، تبقى العديد منها عرضة لهذه الهجمات الخبيثة، مما يستدعي جهودًا مستمرة لتطوير آليات كشف فعالة وقابلة للتطبيق بشكل شامل.
ويبرز هنا ابتكارنا الجديد: اكتشاف انحراف التضمين بدون عينة (ZEDD). تعتبر ZEDD إطار عمل خفيفًا مع انخفاض التكاليف الهندسية، حيث تستطيع تحديد محاولات الحقن، سواء كانت مباشرة أو غير مباشرة، من خلال قياس التغيرات الدلالية في فضاء التضمين بين المدخلات السليمة والم suspect.
تعمل ZEDD بدون الحاجة إلى الوصول إلى المكونات الداخلية للنموذج، أو معرفة مسبقة بأنواع الهجمات، أو إعادة تدريب نموذج محدد للمهام، ما يجعل تنفيذها سلسًا عبر هياكل متعددة من نماذج اللغات الضخمة. تعتمد طريقتنا على أزواج من العبارات النقية المصممة لمواجهة الهجمات، باستخدام قياس التشابه الزاوي لالتقاط التلاعبات الخبيثة.
لتأكد من دقة التقييم، قمنا بتجميع وإعادة توضيح مجموعة بيانات LLMail-Inject التي تشمل خمس فئات من الحقن. وأظهرت التجارب الواسعة التي أجريناها أن انحراف التضمين يعد إشارة قوية قابلة للنقل، حيث تفوقت ZEDD على الطرق التقليدية من حيث دقة الاكتشاف وكفاءة التشغيل.
مع دقة تزيد عن 93% في تصنيف حقن التحفيز عبر هياكل مثل Llama 3 وQwen 2 وMistral، ومعدل إيجابيات كاذبة يبلغ أقل من 3%، توفر طريقتنا طبقة دفاع خفيفة وقابلة للتوسع يمكن دمجها ضمن أنظمة نموذج اللغات الضخمة الحالية، مما يعالج فجوة حرجة في تأمين النظم المعتمدة على الذكاء الاصطناعي ضد التهديدات المتطورة.
اكتشاف انحراف التضمين بدون عينة: حصن خفيف ضد هجمات الحقن في نماذج اللغات الضخمة!
تمثل هجمات الحقن تهديداً متزايداً لتطبيقات نماذج اللغات الضخمة، مما يستدعي تطوير آليات كشف فعالة. نقدم من خلال هذه المقالة طريقة جديدة تحمل اسم اكتشاف انحراف التضمين بدون عينة (ZEDD)، التي توفر دفاعًا خفيف الوزن ضد هذه التهديدات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
