في عالم يتطور بسرعة في مجال الذكاء الاصطناعي، يُعتبر الأمان أحد أكبر التحديات التي تواجه نماذج اللغات الضخمة (Large Language Models). تهدف محاذاة الأمان إلى تقليل السلوكيات الضارة وغير الآمنة، لكن الأبحاث الحديثة توضح أن تأثيرات المحاذاة قد تكون عرضة للهشاشة.

تظهر الاعتبارات الجديدة أنه يمكن أن تؤدي التعديلات البسيطة بعد المحاذاة، مثل ضوضاء المعامل أو ضوضاء التنشيط، إلى إضعاف السلوك الآمن المستهدف. وبالرغم من الجهود السابقة التي ركزت على تنسيق البيانات وتعريف أهداف المحاذاة الجديدة، لم يتم استكشاف دور المحسن (Optimizer) بشكل كافٍ.

تقدم هذه الورقة البحثية الأولى من نوعها استكشافًا لصلابة محاذاة الأمان من منظور المحسن الأساسي. يكشف هذا المنظور كيف يمكن لتحسين من الدرجة الصفرية (Zeroth-Order Optimization) أن يمنح إشارة تتمحور حول المتانة، من خلال تقييم محاذاة الأمان تحت الاضطرابات.

استنادًا إلى هذا الاكتشاف، نقترح إطارًا هجينًا يعمل في البداية على تنفيذ محاذاة الأمان باستخدام الدرجة الأولى، ثم يُطبق تحسينًا من الدرجة الصفرية لتعزيز المتانة. وفي كل من النواحي النظرية والتجريبية، أظهرت النتائج أن بضع خطوات من تحسين الدرجة الصفرية يمكن أن تعزز المتانة مع الحفاظ على محاذاة الأمان المفترضة.

كما قمنا بتحسين كفاءة تحسين الدرجة الصفرية من خلال استغلال تقييمات القائمة على الاضطرابات لتقدير حساسية المتانة على مستوى الطبقات، مما يتيح عملية تحسين تركز التحديثات على الطبقات الحرجة المتعلقة بالمتانة مع تحميل تدريبي متواضع.

من الواضح أن هذه التطورات تمثل خطوة هامة نحو نماذج لغات أقوى وأأمن. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!