في السنوات الأخيرة، لاحظنا تصاعد جهود الأبحاث في مجال استخدام نماذج اللغة الكبرى (Large Language Models) لمواجهة التهديدات الجديدة، ومن بينها هجمات حقن الأوامر (Prompt Injection). وتعتمد الاستراتيجيات الجديدة على استخدام سياسة أمان خارجية للتصدي لهذا النوع من الهجمات بدلاً من تدريب النموذج ليقوم برفض التعليمات الضارة.
تظهر أنظمة مثل CaMeL وFIDES وProgent وRTBAS وFORGE كيف يمكن تنفيذ هذه الدفاعات. تعتمد هذه الأنظمة على عناصر متعددة مثل تسميات تدفق المعلومات (Information-flow labels) ومراقبة المراجع (Reference Monitoring)، مما أدى إلى تحقيق تقارير عن تقليص شبه كامل للهجمات على معيار AgentDojo.
تقدم الدراسة التي تم نشرها مؤخرًا مساهمتين رئيسيتين: الأولى هي تنظيم الدفاعات الخارجية كأمثلة على حماية سلامة البيانات الكلاسيكية، مما يوفر مقارنة منظمة للميزات التي تغطيها وما لا تغطيه. أما الثانية، فتحذر من أن جميع هذه الأنظمة تم اختبارها فقط على معايير ثابتة، وهو نفس المنهجية التي أظهرت قوة الدفاعات الداخلية حتى ظهور هجمات متطورة قادرة على التغلب على اثني عشر منها بنجاح يتجاوز 90%.
تشير نتائج التجارب إلى نجاح محافظة نظام Progent على تقليص معدل نجاح الهجمات من 25.8% إلى 4.2%، ومع ذلك تبقى الحاجة قائمة لإجراء تجارب متقدمة تتضمن هجمات محسّنة (مثل الهجمات البيضاء GCG) لفهم فعالية هذه الاستراتيجيات.
بعد كل ذلك، يبقى السؤال الأهم: هل يمكن أن تُشكّل هذه الدفاعات الخارجية هدفاً أصعب أمام المهاجمين المتكيفين مقارنةً بالكشف الداخلي؟
استراتيجيات متطورة لمواجهة هجمات حقن الأوامر في نماذج اللغة: هل تستطيع الدفاعات الخارجية التصدي للتحديات الجديدة؟
تقدم الدراسات الحديثة استراتيجيات جديدة للدفاع عن نماذج اللغة ضد هجمات حقن الأوامر عن طريق استخدام سياسات أمان خارجية. يكشف البحث عن الحاجة إلى تقييمات تكيفية لمواجهة تهديدات أكثر تقدمًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
