استكشاف القوة الهشة لدعم التفعيل في نماذج اللغة الكبيرة: هل يمكن التغلب على الهجمات المعادية؟

Q: ما هو موضوع مقال "استكشاف القوة الهشة لدعم التفعيل في نماذج اللغة الكبيرة: هل يمكن التغلب على الهجمات المعادية؟"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "استكشاف القوة الهشة لدعم التفعيل في نماذج اللغة الكبيرة: هل يمكن التغلب على الهجمات المعادية؟" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

تطوّر دعم التفعيل (Activation Steering) كأداة شائعة للتحكم في سلوك نماذج اللغة الكبيرة (Large Language Models) من خلال حقن متجهات اتجاه مسبقة الحساب في مجرى النموذج خلال مرحلة الاستدلال. ومع ذلك، لا تزال فعالية هذه التقنية في مواجهة التغيرات الواقعية في المدخلات غير مدروسة بشكل كافٍ.

في دراسة جديدة، أجرينا التقييم النظامي الأول لمدى قوة دعم التفعيل ضد التغيرات النصية المعادية. هذا البحث يغطي أربع طرق لاستخراج المتجهات، وثلاث استراتيجيات هجوم، وستة شخصيات من مجموعة بيانات التقييم المكتوب بواسطة نموذج أنثروبيك، بالإضافة إلى خمسة نماذج تتراوح من 1.5 مليار إلى 30 مليار معلمة.

كانت النتائج مثيرة للقلق، حيث تنجح الهجمات بشكل واسع النطاق في جميع الإعدادات. انخفضت قوة الاتجاه بنسبة تصل إلى 64%، وانهار مستوى الثقة بعد الهجمات ليقترب أو ينخفض إلى 0.25 عبر جميع الطرق والنماذج. كما تبيّن أن قوة التوجيه تضعف عند معظم المدخلات القابلة للتوجيه.

بالإضافة إلى ذلك، كان اختيار الطبقة هاشماً أيضاً؛ حيث كانت الطبقة الأمثل التي حُددت بطريقة تلقائية على مدخلات نظيفة تنتقل بمقدار يصل إلى 17 موقعًا تحت التأثير. هذا الفشل يتفاقم بسبب الانهيار على مستوى المتجهات.

على الرغم من أن استخراج المتجهات من المدخلات المعادية يُعيد جزئيًا قابلية التوجيه لبعض النماذج، مثل PCA وMD، إلا أنه يفشل باستمرار في تحديد الطبقة الأمثل المحسّنة، مما يحد من الفائدة العملية لهذا التخفيف.

تُظهر هذه النتائج مجتمعة أن هشاشة دعم التفعيل هي هيكلية وليست خاصة بالطريقة، مما يتطلب تحسين استراتيجيات اختيار الطبقات لتكون أكثر قوة لتطبيقاتها في العالم الحقيقي.

استكشاف القوة الهشة لدعم التفعيل في نماذج اللغة الكبيرة: هل يمكن التغلب على الهجمات المعادية؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم البرمجة: شركة Gitar الناشئة تؤمن الكود باستخدام الذكاء الاصطناعي!

جوجل تطلق ميزة الذكاء الشخصي جيمني في الهند: تجربة مخصصة في متناول يدك!

أوبن أيه آي تستحوذ على شركة هيرو لتكنولوجيا التمويل الشخصي: خطوة نحو التخطيط المالي الذكي!