في العصر الحديث، تعتمد نماذج اللغة الكبيرة (Large Language Models) بشكل كبير على توافق السلامة، لكن الآلية التي تجعلها ترفض بعض الاستفسارات تظل غير واضحة. في دراسة جديدة، يتحقق الباحثون مما إذا كانت الالتزام بالسلامة هو قرار دلالي عميق أم شيئًا يمكن التلاعب به.
يقدم الباحثون أسلوبًا جديدًا يُعرف بتوجيه اللوجت التبايني (Contrastive Logit Steering - CLS)، وهو إطار لا يعتمد على تحسينات صفرية، والذي يعزل "اتجاه الرفض" عن طريق التباين بين الحالتين المخفية المستمدة من جمل آمنة وغير محددة. على عكس الأساليب التقليدية التي تتدخل في التنشيطات الداخلية، يعمل CLS مباشرة على توزيع النتائج، مما يجعله أداة تشخيصية لفحص هشاشة التوافق.
عندما يتم دمج CLS مع حقن سابق لتجاوز ردود الفعل الأولية في الرفض، يكون لذلك تأثير يؤدي إلى تحول مرحلي حيث تنهار الحواجز. أظهرت التجارب التي تم إجراؤها على 7 عائلات من النماذج أن تنفيذ السلامة يخضع لهيكل معماري محدد. على سبيل المثال، أظهرت نماذج مثل Llama-3.1 تخطيط "قرار متأخر" يمكن تجاوزه بسهولة بواسطة CLS، مما يحقق معدل نجاح هجوم يصل إلى 95% خلال زمن قصير.
نموذج Qwen-2.5، من جهة أخرى، يظهر "تباعد مبكر" من خلال دمج السلامة خلال عمليات الحساب. يُظهر المقابل المباشر مع أساليب توجيه مستوى التنشيط أن CLS يحقق معدلات نجاح أعلى بكثير، مما يُظهر قدرة الأسلوب الجديد على كشف نقاط الضعف في التنسيق التي يمكن أن يغفلها الأساليب التقليدية.
بالإضافة إلى ذلك، تُظهر النتائج أن هذه الخطية تُتيح تحكمًا ثنائي الاتجاه، حيث يمكن عكس اتجاه التوجيه "وصل نموذج " لجعل النماذج أكثر صلابة ضد الانتهاكات دون الحاجة لإعادة تدريبها. تشير نتائج البحث الحالية إلى أن تقنيات التوافق الحالية تُكوّن "محور سلامة" قابل للتوجيه، وهو ما يمثل نقطة ضعف حرجة وأداة دفاعية دقيقة في الوقت نفسه.
ما رأيكم في هذا التطور المثير؟ هل تعتقدون أن هناك حاجة ملحة لتحسين أساليب معالجة السلامة في نماذج الذكاء الاصطناعي؟ شاركونا في التعليقات.
تحليل جديد يكشف ضعف نماذج اللغة الكبيرة في منع المخاطر: هل تُعتبر سلامة الذكاء الاصطناعي مجرد وهم؟
يكشف هذا البحث عن وجود ثغرات خطيرة في نماذج اللغة الكبيرة (LLMs) فيما يتعلق بآلية السلامة، حيث يطرح تساؤلات حول مدى جدوى الأساليب الحالية. من خلال تقديم أسلوب جديد يُعرف باسم توجيه اللوجت التبايني، يسعى الباحثون لإظهار القضاء على المفاهيم التقليدية حول أمان النماذج.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
