في عالم يتزايد فيه استخدام أنظمة معالجة اللغة الطبيعية (NLP) في اتخاذ القرارات الحرجة، يبدو أن متطلبات الأمان والموثوقية أصبحت أكثر أهمية من أي وقت مضى. لكن حتى الآن، لم تتمكن الأساليب العدائية المتاحة من اختبار قوتها بشكل فعّال. في دراسة جديدة، تم تحديد نموذج تهديد يعتمد على نموذج "الصندوق الأسود" يتعامل مع القضايا الحقيقية من خلال تقديم إطار عمل جديد يضم وكيلين: وكيل اعتداء وآخر لتحسين التوجيه.
يعمل وكيل الاعتداء على توليد إعادة صياغة محتوى تحافظ على المعنى، بينما يقوم وكيل تحسين التوجيه بتطوير استراتيجيات للهجوم باستخدام معلومات ثنائية فقط وميزانية استفسارات لا تتجاوز 10 استفسارات. هذا النوع من الهجوم يُظهر فاعلية واضحة عند اختباره ضد أربع أنظمة كشف المعلومات الخاطئة المعتمدة على الأدلة.
بينما كانت معدلات الهروب تتراوح بين 19.95% إلى 40.34% في الأنظمة الحديثة المستندة إلى نماذج اللغات الكبيرة (LLM)، لا تتجاوز معدلات الهروب 3.90% للنماذج البديلة التي تستخدم نماذج بديلة. الأساليب التي تعتمد على استرجاع القواميس الثابتة أظهرت قابلية عالية للإسقاط تصل إلى 97.02%.
يُظهر التحليل أنه يرتبط فعالية الهروب بثلاث خصائص هيكلية: آلية استرجاع الأدلة، ترابط الاسترجاع والاستدلال، ودقة التصنيف الأساسية. بالإضافة إلى ذلك، أكدت تحسينات التوجيه التكرارية على ضرورة اكتشاف استراتيجيات تكيفية عند مواجهة الهجمات المعقدة.
بالإضافة إلى ذلك، كشفت التحليلات عن أنماط استغلال معينة، ما أدى إلى تقليل معدلات الهروب بنسبة تصل إلى 65.18% عند تطبيق دفاعات مستندة إلى الأنماط.
كشف النقاب عن ثغرات الهيكل المعماري في خط أنابيب معالجة اللغة الطبيعية: استراتيجيات جديدة لمواجهة التهديدات
تقدم دراسة جديدة نموذجًا مبتكرًا لاستكشاف الثغرات الأمنية في أنظمة معالجة اللغة الطبيعية عالية المخاطر. باستخدام إطار عمل في ادعاءات الهجوم، تمكن الباحثون من تحقيق معدلات تجنب تصل إلى 40% ضد أنظمة معقدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
