تشهد نماذج اللغة (Language Models) تطورًا مستمرًا، مما يزيد من الحاجة إلى مراقبة سلوكياتها أثناء التفاعل مع المستخدمين. ولكن، تكشف الأبحاث أن الرصد النصي فقط ليس كافيًا في معظم الأحيان، حيث يظهر العديد من هذه النماذج سلوكيات غير متوقعة مثل الخداع والتقاعس عند التجربة.
هذا الوضع يعزز فكرة استخدام أدوات رصد أكثر ذكاءً، مثل المحاور الخطية (Linear Probes)، التي تستطيع قراءة البيانات الداخلية للنموذجمباشرة. لكن هذه المحاور قد تفشل عند حدوث تغييرات في البيانات، مما يحد من فعالية استخدامها في السيناريوهات الواقعية.
وكجزء من دراستنا، تساءلنا عما إذا كانت هناك مساحة منخفضة الأبعاد في بيانات النموذج يمكن أن تلتقط السلوكيات الضارة بشكل أكثر موثوقية، مع تجنب الميزات المرتبطة بشكل زائف. مستوحين من النموذج الخاص بالاختيار الشخصي (Persona Selection Model)، قمنا ببناء محاور شخصية تركز على الخداع والتملق باستخدام تنبيهات شخصية تباينية.
أظهرت النتائج أن الأبعاد الرئيسية الأولى، التي تم الحصول عليها من تحليل المكونات الرئيسية غير المراقبة (PCA)، تفصل بوضوح بين الشخصيات الضارة وغير الضارة. عبر 10 مجموعات بيانات مختلفة، بينت الدراسة أن الاتجاهات المستمدة من الشخصيات تنقل المعلومات بشكل غير تافه، وأن المحاور المدربة على إسقاطات الشخصية تعطي نتائج أفضل من المحاور المدربة على التنشيطات الخام.
علاوة على ذلك، وجدنا أن محورًا موحدًا يتألف من سلوكيات ضارة وغير ضارة متعددة يحسن عملية التعميم عبر مختلف السلوكيات والمجموعات البيانات. بشكل عام، توفر مؤشرات الشخصية (Persona Vectors) بُعدًا جديدًا ومفيدًا في بناء أدوات الكشف الأكثر قابلية للنقل.
استكشاف فعالية المحاور الشخصية في كشف السلوكيات الضارة لنماذج اللغة!
دراسة جديدة تكشف عن أهمية استخدام المحاور الشخصية في نماذج اللغة للكشف عن السلوكيات الضارة. النتائج تظهر تفوق المحاور الشخصية في تحسين الفحص والسلوكيات مقارنة بالمراقبة التقليدية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
