في عصر تُعتبر فيه نماذج اللغات الضخمة (Large Language Models) أدوات فعّالة في المحادثات، تنشأ تحديات جديدة تتعلق بالهجمات التي تستغل هذه النماذج بطريقة خطرة. الخطر يكمن في الهجمات متعددة الدور، حيث يمكن للنيّات الضارة أن تنتقل عبر أدوار تبدو في ظاهرها عادية.
مؤخراً، ظهرت أساليب متعددة الدور تعتمد على التدريب لتعليم استراتيجيات الهجوم طويلة المدى من خلال ملاحظات التفاعلات. لكن الكثير من هذه الأساليب ترتكز على إشارات نتائج خشنه تُعمم على كل التفاعلات، مما يؤدي إلى ما يُعرف بمشكلة توزيع الائتمان (Credit Assignment Problem).
لاحظ الباحثون أن مساهمات الأدوار في مثل هذه الهجمات غير متساوية وتعتمد على المرحلة والهدف، حيث يتم منح مكافآت مفرطة للأدوار التي تبدو زائدة في المسارات الناجحة، بينما تُهمل الأدوار الوسطى المفيدة في المسارات الفاشلة.
لحل هذه المشكلة، قام الباحثون بتقديم تقنية TRACE، وهي إطار عمل يستند إلى التعلم المعزز (Reinforcement Learning) ويأخذ في اعتباره الأدوار بشكل دقيق. من خلال تقنية الصرف الدلالي (Semantic Masking) التي تستثنى دوراً واحداً، يقوم TRACE بتقدير مساهمات الأدوار. كما يقوم بتطبيق عقوبات بناءً على مدى الضرر الناتج عن الإشارات السلبية في المسارات الفاشلة.
تجارب موسعة على أهداف مفتوحة ومغلقة أظهرت أن تقنية TRACE تحقق أداءً قويًا في الكفاءة والقدرة على التكيف، حيث أن معدل نجاح الهجمات تحسن بحوالي 25% مقارنة بأقوى الممارسات السابقة في التعلم المعزز، مما يعزز أيضاً الاتزان بين السلامة والفائدة عند استخدامها في الدفاعات.
هل أنتم مستعدون لاستكشاف المزيد في عالم الهجمات متعددة الدور؟ شاركونا آراءكم في التعليقات!
الكشف عن تقنيات جديدة في الهجمات متعددة الدور للتخلص من القيود: إطار TRACE الثوري!
في عالم الذكاء الاصطناعي، تظهر تقنية TRACE كحل مبتكر للتحديات المرتبطة بتوزيع الأدوار في الهجمات متعددة الدور. تعتمد هذه التقنية على حساب مساهمات الأدوار بشكل دقيق لتحسين فعالية الهجمات والدفاعات على حد سواء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
