تطوّر دعم التفعيل (Activation Steering) كأداة شائعة للتحكم في سلوك نماذج اللغة الكبيرة (Large Language Models) من خلال حقن متجهات اتجاه مسبقة الحساب في مجرى النموذج خلال مرحلة الاستدلال. ومع ذلك، لا تزال فعالية هذه التقنية في مواجهة التغيرات الواقعية في المدخلات غير مدروسة بشكل كافٍ.
في دراسة جديدة، أجرينا التقييم النظامي الأول لمدى قوة دعم التفعيل ضد التغيرات النصية المعادية. هذا البحث يغطي أربع طرق لاستخراج المتجهات، وثلاث استراتيجيات هجوم، وستة شخصيات من مجموعة بيانات التقييم المكتوب بواسطة نموذج أنثروبيك، بالإضافة إلى خمسة نماذج تتراوح من 1.5 مليار إلى 30 مليار معلمة.
كانت النتائج مثيرة للقلق، حيث تنجح الهجمات بشكل واسع النطاق في جميع الإعدادات. انخفضت قوة الاتجاه بنسبة تصل إلى 64%، وانهار مستوى الثقة بعد الهجمات ليقترب أو ينخفض إلى 0.25 عبر جميع الطرق والنماذج. كما تبيّن أن قوة التوجيه تضعف عند معظم المدخلات القابلة للتوجيه.
بالإضافة إلى ذلك، كان اختيار الطبقة هاشماً أيضاً؛ حيث كانت الطبقة الأمثل التي حُددت بطريقة تلقائية على مدخلات نظيفة تنتقل بمقدار يصل إلى 17 موقعًا تحت التأثير. هذا الفشل يتفاقم بسبب الانهيار على مستوى المتجهات.
على الرغم من أن استخراج المتجهات من المدخلات المعادية يُعيد جزئيًا قابلية التوجيه لبعض النماذج، مثل PCA وMD، إلا أنه يفشل باستمرار في تحديد الطبقة الأمثل المحسّنة، مما يحد من الفائدة العملية لهذا التخفيف.
تُظهر هذه النتائج مجتمعة أن هشاشة دعم التفعيل هي هيكلية وليست خاصة بالطريقة، مما يتطلب تحسين استراتيجيات اختيار الطبقات لتكون أكثر قوة لتطبيقاتها في العالم الحقيقي.
استكشاف القوة الهشة لدعم التفعيل في نماذج اللغة الكبيرة: هل يمكن التغلب على الهجمات المعادية؟
تعرّف على تقييم نظامي جديد لضعف دعم التفعيل في نماذج اللغة الكبيرة (LLMs) أثناء تعرضها للهجمات المعادية. النتائج تكشف عن القابلية الضعيفة للتوجيه مما يشير إلى ضرورة تحسين استراتيجيات الاختيار والتطوير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
