عصب واحد يكفي لتجاوز حماية الذكاء الاصطناعي: اكتشاف مثير في نماذج اللغات الكبيرة!

في دراسة جديدة منشورة على منصة arXiv، وجد الباحثون أن سلامة نماذج اللغات الكبيرة (Large Language Models) تعتمد على أنظمة فريدة تتداخل في عملها. يحتوي النظام الأول على "أعصاب الرفض"، التي تحدد ما إذا كان سيتم التعبير عن المعرفة الضارة، بينما تحتوي الثانية على "أعصاب المفاهيم" التي تخزن المعرفة الضارة ذاتها. وقد أظهرت التجارب أنه باستهداف عصب واحد فقط في كل نظام، يمكن تجاوز آليات الأمان في هذه النماذج بطريقة غير مسبوقة.

تتجلى النتائج في تقديم آليتين عنيفتين لعمل أنظمة الحماية، حيث يتمثل الأول في تجاوز الأمان عند تلقي طلبات ضارة بشكل صريح عن طريق الكبت، والثاني في استحضار محتوى ضار من استفسارات تبدو بريئة من خلال التحفيز. وقد طُبقت هذه النتائج على سبعة نماذج تمتد عبر عائلتين وتغطي مابين 1.7 مليار إلى 70 مليار من المعاملات، ومن دون الحاجة إلى تدريب أو هندسة خاصة للمحفزات.

ما توصل إليه الباحثون يثير القلق، حيث يظهر أن حماية نماذج اللغات ليست موزعة بشكل موثوق عبر أوزان النموذج، بل تتوسطها أعصاب فردية. فإذا تم كبت أي واحد من أعصاب الرفض المكتشفة، يتجاوز نظام الأمان مجموعة متنوعة من الطلبات الضارة.

إن هذا الاكتشاف يعيد رسم الحدود للحفاظ على سلامة الذكاء الاصطناعي، ويدعو إلى إعادة التفكير في طرق تطوير نماذج الذكاء الاصطناعي بشكل آمن وفعال. ما رأيكم في هذه النتائج المثيرة؟ شاركونا في التعليقات.

عصب واحد يكفي لتجاوز حماية الذكاء الاصطناعي: اكتشاف مثير في نماذج اللغات الكبيرة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

تحول جديد في نظام الدفع الطبي: كيف ستغير الذكاء الاصطناعي (AI) مستقبل الرعاية الصحية؟

إيلون ماسك يوسع استخدام التوربينات الغازية رغم دعوى قضائية مستمرة!

تذليل العقبات: كيف نجعل نقل نماذج الذكاء الاصطناعي إلى الإنتاج أكثر سلاسة؟