في دراسة جديدة منشورة على منصة arXiv، وجد الباحثون أن سلامة نماذج اللغات الكبيرة (Large Language Models) تعتمد على أنظمة فريدة تتداخل في عملها. يحتوي النظام الأول على "أعصاب الرفض"، التي تحدد ما إذا كان سيتم التعبير عن المعرفة الضارة، بينما تحتوي الثانية على "أعصاب المفاهيم" التي تخزن المعرفة الضارة ذاتها. وقد أظهرت التجارب أنه باستهداف عصب واحد فقط في كل نظام، يمكن تجاوز آليات الأمان في هذه النماذج بطريقة غير مسبوقة.
تتجلى النتائج في تقديم آليتين عنيفتين لعمل أنظمة الحماية، حيث يتمثل الأول في تجاوز الأمان عند تلقي طلبات ضارة بشكل صريح عن طريق الكبت، والثاني في استحضار محتوى ضار من استفسارات تبدو بريئة من خلال التحفيز. وقد طُبقت هذه النتائج على سبعة نماذج تمتد عبر عائلتين وتغطي مابين 1.7 مليار إلى 70 مليار من المعاملات، ومن دون الحاجة إلى تدريب أو هندسة خاصة للمحفزات.
ما توصل إليه الباحثون يثير القلق، حيث يظهر أن حماية نماذج اللغات ليست موزعة بشكل موثوق عبر أوزان النموذج، بل تتوسطها أعصاب فردية. فإذا تم كبت أي واحد من أعصاب الرفض المكتشفة، يتجاوز نظام الأمان مجموعة متنوعة من الطلبات الضارة.
إن هذا الاكتشاف يعيد رسم الحدود للحفاظ على سلامة الذكاء الاصطناعي، ويدعو إلى إعادة التفكير في طرق تطوير نماذج الذكاء الاصطناعي بشكل آمن وفعال. ما رأيكم في هذه النتائج المثيرة؟ شاركونا في التعليقات.
عصب واحد يكفي لتجاوز حماية الذكاء الاصطناعي: اكتشاف مثير في نماذج اللغات الكبيرة!
توصل الباحثون إلى أن عصباً واحداً في نماذج اللغات الكبيرة (Large Language Models) يمكنه تجاوز آليات الحماية الأمنية. يكشف هذا الاكتشاف عن نقاط ضعف خطيرة في أنظمة الذكاء الاصطناعي التي تعتمد على هذه النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
