أظهرت الأبحاث الأخيرة أن الهجمات التي تستهدف الذاكرة الدائمة (Persistent Memory Attacks) على نماذج اللغة الكبيرة (LLMs) تحقق نسب نجاح مرتفعة ضد النماذج المفتوحة المصدر. تعتمد هذه الهجمات على تعليمات خبيثة يتم حقنها عبر وثائق تم استرجاعها عن طريق نظام الاسترجاع والتوليد (RAG) وتُخزن في الذاكرة الدائمة، مما يسمح بتنفيذها في جلسات لاحقة.
ومع ذلك، لم يُجرَ تقييم منظم لفعالية الدفاع ضد هذا النوع من الهجمات. في هذه الدراسة، تمت مراجعة ستة أساليب دفاعية عبر أربع طبقات معمارية، حيث تم اختبارها ضد الهجمات ذات الزناد المتأخر على تسعة نماذج مفتوحة المصدر، مع إجراء 5040 تجربة (N=40 لكل شرط).
تبين أنه fail في أربعة من أساليب الدفاع، التي شملت تصفية المدخلات (Minimizer، Sanitizer) والتصفية على مستوى الاسترجاع (RAG Sanitizer، RAG LLM Judge)، حيث حققت نتائج تصل إلى 88-89% من نسبة نجاح الهجمات (ASR)، وهي نسبة لا تختلف إحصائياً عن نسبة نجاح الهجمات دون دفاع والتي كانت 88.6%.
بينما حقق أسلوب الدفاع "تحصين الرموز" (Prompt Hardening) نجاحاً جزئياً بنسبة 77.8% من نسبة نجاح الهجمات، وذلك نتيجة تأثير نموذجين حقق أحدهما 0%، مما يعكس تأثير دفاع حقيقي في حالة معينة.
من المفارقات، أن أحد الأساليب الدفاعية، "Sandbox الذاكرة" (Memory Sandbox)، استطاع تقليل نسبة نجاح الهجمات إلى 0% في ثمانية من تسعة نماذج، عن طريق إزالة قدرات الاسترجاع التي تحتاجها هذه الهجمات. ولكن النموذج الاستدلالي الذي كان يتحقق فيه 0% من النجاح تحت عدم وجود أي دفاع، تحول إلى 100% تحت "Sandbox الذاكرة"، حيث أجبره إزالة الاسترجاع الظاهر على اتباع مسار الـ RAG.
هذه النتائج تسلط الضوء على الحاجة إلى استثمار ذكي في أساليب الدفاع، وتساعد في فهم آليات الفشل والنجاح. فهل أنتم مع تطور هذه الأبحاث الجديدة؟ شاركونا آرائكم في التعليقات!
أساليب الدفاع الفعالة ضد هجمات الذاكرة الدائمة: تقييم ميكانيكي عميق لنماذج اللغة الذكية
دراسة جديدة تكشف عن فعالية أساليب الدفاع ضد هجمات الذاكرة الدائمة على نماذج اللغة الكبيرة (LLMs) المفتوحة المصدر. تحليل شامل يكشف نقاط القوة والضعف في استراتيجيات الدفاع المختلفة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
