في عصر تتزايد فيه الهجمات السيبرانية، يأتي بحث جديد بآلية مبتكرة لكشف أساليب الهجوم على الأنظمة المعتمدة على الذكاء الاصطناعي، وخصوصًا النماذج اللغوية الضخمة (Large Language Models).
**استراتيجيات الهجوم المتعددة الأدوار**
تنتهج الهجمات متعددة الأدوار مسارًا معروفًا يتضمن بناء الثقة، التحول، والتصعيد. ومع ذلك، تكشف هذه الدراسة أن الدفاعات النصية التقليدية تفشل في كشف الهجمات القابلة للتخفي، حيث يبدو أن كل دور منها غير ضار. وبالتالي، تم تقديم مفهوم جديد يسمى "القلق العدائي" (Adversarial Restlessness)؛ حيث تترك هذه الهجمات توقيعًا على مستوى النشاط داخل سلسلة بقايا النموذج، مما يوفر أدلة على وجود النشاط العدائي.
**تحسين دقة الكشف**
تظهر النتائج أن تحليل خمسة ميزات مسارية تُعزز من دقة الكشف من 76.2% إلى 93.8% على البيانات المحجوزة المصنعة. وقد تم إحراز تقدم ملحوظ دون الاعتماد على جهد إضافي على النموذج، حيث تتكرر هذه الإشارة عبر أربعة عائلات من النماذج تتراوح حجمها بين 24B و70B.
**خصوصية النماذج والتعميم**
على الرغم من أن أدوات الكشف تعتمد على نماذج معينة، إلا أن القدرة على تعميم النتائج تبقى مرتبطة بمصدر البيانات. توضح التقييمات أن كل من البيانات الاصطناعية، وLMSYS-Chat-1M، وSafeDialBench تمتلك توزيعات هجوم مميزة، مما يوفر رؤية أكثر شمولية في علوم الأمن السيبراني.
**منظور جديد لحماية المستقبل**
باستخدام التصنيفات الثلاثية للأدوار (غير ضار، متحول، عدائي)، تتضح أهمية اكتشاف الأنماط الخفية للقضاء على معدلات الإيجابيات الكاذبة التي تصل إلى 50-59% عند استخدام تصنيفات ثنائية. تؤكد هذه النتائج أن القلق العدائي يُعد إشارة موثوقة على مستوى النشاط، مما يمهد الطريق لتطبيقات عملية في الدفاع ضد التهديدات السيبرانية.
كيفية كشف هجمات الذكاء الاصطناعي الخفية: رحلة مثيرة في عالم النماذج اللغوية!
استكشفوا اكتشافاً جديداً في الأمن السيبراني للذكاء الاصطناعي يكشف عن الأساليب الخفية للهجمات عبر تحليل توقيعات نشاط النماذج اللغوية. النتائج تشير إلى قدرة دالة جديدة على تعزيز دقة الكشف بشكل كبير!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
