تتميز نماذج اللغات الكبيرة (LLMs) بقدراتها المتطورة التي ساهمت في انتشارها في مجالات متنوعة، حتى في السيناريوهات المرتبطة بالمخاطر العالية. على الرغم من التقدم في تقنيات تعزيز الأمان، لا تزال هذه النماذج عرضة للهجمات المتزايدة القائمة على الهوية.
العناصر الحالية في الأبحاث تركز بشكل أساسي على تطوير دورات الهجمات، دون وجود استراتيجية متكاملة ومتوازنة للدفاع. ولتجاوز هذه التحديات، تم اقتراح تقنية جديدة تسمى **تنسيق غير تابع للهوية** (Persona-Invariant Alignment - PIA)، والتي تعتمد على إطار عمل للعب الذاتي العدائي.
يجمع هذا الإطار بين تطوير خط النسب الخاص بالهوية (Persona Lineage Evolution - PLE) في جانب الهجوم، ومنهجية تعلم الاتساق غير التابع للهوية (Persona-Invariant Consistency Learning - PICL) في جانب الدفاع. يشتمل PICL على فرضية الفصل الهيكلي، حيث يتم استخدام قيود divergence التقليدي أحادي الجانب لتحقيق فصل هيكلي بين قرارات الأمان وسياق الهوية، مما يؤدي إلى الحفاظ على سلوك آمن حتى في ظل الهجمات القائمة على الهوية.
أظهرت النتائج التجريبية أن PLE قادر على استكشاف مجالات الهوية عالية المخاطر من خلال استغلال آلية انتشار الائتمان القائم على الأنساب. وفي الوقت نفسه، أثبتت طريقة الدفاع PICL فعاليتها في تقليل معدل نجاح الهجمات (Attack Success Rate - ASR) مع الحفاظ على كفاءة النموذج العامة، مما يدل على تفوق وقوة هذا النموذج في تعزيز الأمان.
إذا كنت مهتمًا بالتفاصيل الفنية، يمكنك الاطلاع على كود العمل عبر [GitHub](https://github.com/JiajiaLi-1130/PIA).
تحليل العوامل: كيف تعزز تقنيات الدفاع المعتمدة على الذكاء الاصطناعي الأمان ضد الهجمات المتقدمة؟
تكشف الأبحاث الجديدة عن تقنية مبتكرة تعزز أمان نماذج اللغات الكبيرة (LLMs) باستخدام هيكلية فعالة لمواجهة الهجمات القائمة على الهوية. تعرف على كيفية حماية الأنظمة الذكية من التهديدات المتزايدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
