في دراسة جديدة منشورة على منصة arXiv، وجد الباحثون أن سلامة نماذج اللغات الكبيرة (Large Language Models) تعتمد على أنظمة فريدة تتداخل في عملها. يحتوي النظام الأول على "أعصاب الرفض"، التي تحدد ما إذا كان سيتم التعبير عن المعرفة الضارة، بينما تحتوي الثانية على "أعصاب المفاهيم" التي تخزن المعرفة الضارة ذاتها. وقد أظهرت التجارب أنه باستهداف عصب واحد فقط في كل نظام، يمكن تجاوز آليات الأمان في هذه النماذج بطريقة غير مسبوقة.

تتجلى النتائج في تقديم آليتين عنيفتين لعمل أنظمة الحماية، حيث يتمثل الأول في تجاوز الأمان عند تلقي طلبات ضارة بشكل صريح عن طريق الكبت، والثاني في استحضار محتوى ضار من استفسارات تبدو بريئة من خلال التحفيز. وقد طُبقت هذه النتائج على سبعة نماذج تمتد عبر عائلتين وتغطي مابين 1.7 مليار إلى 70 مليار من المعاملات، ومن دون الحاجة إلى تدريب أو هندسة خاصة للمحفزات.

ما توصل إليه الباحثون يثير القلق، حيث يظهر أن حماية نماذج اللغات ليست موزعة بشكل موثوق عبر أوزان النموذج، بل تتوسطها أعصاب فردية. فإذا تم كبت أي واحد من أعصاب الرفض المكتشفة، يتجاوز نظام الأمان مجموعة متنوعة من الطلبات الضارة.

إن هذا الاكتشاف يعيد رسم الحدود للحفاظ على سلامة الذكاء الاصطناعي، ويدعو إلى إعادة التفكير في طرق تطوير نماذج الذكاء الاصطناعي بشكل آمن وفعال. ما رأيكم في هذه النتائج المثيرة؟ شاركونا في التعليقات.