في عالم يتزايد فيه الاعتماد على الذكاء الاصطناعي، تبرز أهمية نماذج الحماية (Guard Models) لدعم الأمان في التطبيقات المختلفة. ولكن، ماذا يحدث عندما تنهار هذه النماذج وتفقد قدرتها على حماية المستخدمين؟
أظهرت دراسة حديثة من منصة arXiv أن نموذجاً للحماية، عند تحسينه على بيانات غير ضارة فقط، يُمكن أن يفقد توافقه مع معايير الأمان، دون الحاجة إلى أي هجمات معادية. تم اختبار هذا الفشل عبر ثلاثة مصنفات أمان مخصصة هي LlamaGuard وWildGuard وGranite Guardian.
النتائج كانت صادمة: نموذج Granite Guardian شهد انهياراً تاماً في أداءه الأمني، حيث انخفضت نسبة الرفض من 85% إلى 0% وأصبحت جميع مخرجاته غامضة. تفسر هذه الحالة من خلال فرضية التخصص، حيث أن التمثيلات المركزية للأمان قد تكون فعالة، لكنها تتسم بالهشاشة الفاترة.
للتغلب على هذه المشكلة، اقترح الباحثون تقنية جديدة تدعى Fisher-Weighted Safety Subspace Regularization (FW-SSR)، والتي تتضمن تعديلات تساعد في استعادة نسبة رفض تصل إلى 75% في نموذج Granite Guardian، بينما خفضت من معدل نجاح هجمات WildGuard إلى 3.6%، مما يعكس التحسين الحقيقي في الفعالية الأمنية.
تشير النتائج إلى ضرورة اعتماد أساليب تعتمد على هندسة التمثيلات البنيوية في تقييم نماذج الحماية، مما يسهم في تعزيز موثوقية الأمان في التطبيقات المعتمدة على الذكاء الاصطناعي.
عندما تتعرض نماذج الحماية للانهيار: دراسة ثغرات النماذج الحارسة للذكاء الاصطناعي
تظهر الأبحاث أن النماذج الحارسة التي تم تحسينها على بيانات غير ضارة يمكن أن تفقد كل توافق مع معايير الأمان. تعرض هذه المقالة كيف يفشل هذا النظام عبر نماذج متنوعة، مما يعرض أهمية إعادة النظر في استراتيجيات الحماية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
