لا تزال نماذج الذكاء الاصطناعي مثل نماذج اللغات الضخمة (Large Language Models) ونماذج اللغة البصرية (Vision Language Models) تُظهر قدرات مذهلة، لكنها تواجه تحديات كبيرة في الأمان، خاصةً خلال هجمات الاختراق. تقوم هذه الهجمات باستغلال العناصر النصية أو المرئية للتهرب من الضمانات الأمنية الموجودة.
تتضمن الدفاعات السابقة تعديل الأمان أو استخدام مرشحات خارجية لتقليل احتمالية إنتاج النموذج لمحتوى ضار. على الرغم من فعاليتها، إلا أن هذه الطرق غالباً ما تقود إلى زيادة في الحمل الحسابي وتقوّض من أداء النموذج في المهام السليمة.
للخروج من هذه التحديات، تم اقتراح إطار EVA (تحرير من أجل التوافق المتنوع ضد الاختراقات). يعد EVA نهجًا مبتكرًا يعيد صياغة مسألة توافق الأمان كمهام دقيقة لتصحيح المعرفة، حيث يقوم بإجراء تعديلات مباشرة على النموذج. بدلاً من إعادة تدريب جميع المعلمات، يركز EVA على تحديد وتحرير أعصاب معينة مسؤولة عن توجيه النموذج لأوامر ضارة، مع الحفاظ على معظم أجزاء النموذج سليمة.
من خلال تحديد وتحرير هذه الأجزاء، يمكن لإطار EVA تحييد السلوكيات الضارة بفاعلية ودون التأثير على قدرات النموذج العامة في التفكير. أظهرت التجارب المكثفة أن EVA يتفوق على الطرق التقليدية في الحد من هجمات الاختراق على كل من نماذج اللغات الضخمة ونماذج اللغة البصرية، مما يوفر حلاً دقيقًا وفعالًا لتوافق الأمان بعد النشر.
إذا كنت مهتمًا بتطورات الذكاء الاصطناعي، تابعونا لاكتشاف المزيد حول كيفية حماية نماذج الذكاء الاصطناعي من التهديدات المتزايدة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!
EVA: إطار مبتكر لتعزيز الأمان في نماذج الذكاء الاصطناعي ضد هجمات الاختراق!
طرحت الأبحاث الحديثة إطار EVA، الذي يعد ثورة في تعزيز أمان نماذج الذكاء الاصطناعي. يعتمد على تحرير دقيق للمعرفة لمواجهة هجمات الاختراق دون التأثير على أداء النموذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
