في عالم الذكاء الاصطناعي، تعد نماذج اللغات الضخمة (Large Language Models) أدوات قوية، لكنها قد تتعرض لمخاطر كبيرة نتيجة التعديل الضار (Harmful Fine-Tuning). حيث يقوم المهاجمون بتعديل هذه النماذج باستخدام بيانات ضارة لإزالة تدابير الأمان، مما يُحدث سلوكيات غير آمنة. لذا، يبرز الإطار الدفاعي الجديد SPARD كاستجابة فعالة لهذه التحديات.
يعتمد SPARD على تقنية تحسين بديلة لمحاكاة الأمان (Safety-Projected Alternating optimization) مع اختيار بيانات يدرك تطابقها وتنوعها (Relevance-Diversity aware data selection). يقوم الإطار باستخدام خوارزمية SPAG التي تتناوب بين تحسين الفائدة وتطبيق تدابير الأمان، مما يضمن التمسك بمعايير الأمان. والجدير بالذكر، أن SPARD يعتمد على عملية اختيار بيانات متعددة تمزج بين الترابط (Relevance) والتنوع (Diversity)، ما يساعد في تجميع بيانات آمنة فعالة.
أظهرت التجارب التي أجريت على مجموعات بيانات GSM8K و OpenBookQA تحت تأثير أربع هجمات تعديل ضار أن SPARD يُحقق معدل نجاح أقل في الهجمات بشكل ملحوظ مقارنة مع أفضل الأساليب الدفاعية الحالية، مع الحفاظ على دقة عالية في المهام. يمكنكم الاطلاع على الشيفرة البرمجية للإطار عبر الرابط: [https://github.com/shuhao02/SPARD].
كيف ترون هذه التطورات في عالم الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.
SPARD: درع الذكاء الاصطناعي ضد هجمات التعديل الضار من خلال اختيار بيانات الأمان المتنوعة
تمثل SPARD إطار دفاعي ثوري يحمي نماذج اللغات الضخمة من الهجمات الضارة بتعديل البيانات. هذا الإطار يضمن السلامة مع الحفاظ على دقة المهام.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
