في ظل النمو المتسارع في أبحاث أمان الذكاء الاصطناعي، تم تسليط الضوء على الحاجة إلى طرق Red-Teaming فعالة تكشف عن المخاطر المحتملة التي قد تطرحها نماذج الذكاء الاصطناعي التوليدية. وقد أثبتت الدراسات أن خلفيات وجهات نظر المحللين تلعب دوراً حاسماً في استراتيجياتهم والمخاطر التي يستخرجونها.

تظهر الطرق الأوتوماتيكية في Red-Teaming وعوداً كبيرة، حيث يمكن أن تكمل المجهودات البشرية من خلال استكشاف أوسع. غير أن هذه الطرق الحالية لا تأخذ بعين الاعتبار الهويات الإنسانية ولا تتضمن مدخلات البشر في كثير من الأحيان.

هذا ما تقدمه PersonaTeaming، التي تطور نموذج Workflows يعتمد على الشخصيات (Personas) في عملية توليد الحوافز العدائية، مما يسمح باستكشاف مجموعة واسعة من الاستراتيجيات العدائية. بالمقارنة مع RainbowPlus، وهي طريقة Red-Teaming أوتوماتيكية رائدة، أثبت PersonaTeaming Workflow نجاحاً أعلى في الهجمات مع الحفاظ على تنوع الحوافز.

لكن، بما أن الشخصيات الأوتوماتيكية لا تعكس بشكل دقيق وجهات النظر البشرية، تم تطوير PersonaTeaming Playground، وهو واجهة تفاعلية تتيح للمحللين تأليف شخصياتهم الخاصة والتعاون مع الذكاء الاصطناعي لتعديل وتحسين المحفزات. في دراسة استخدام مع 11 ممارساً من الصناعة، ثبت أن هذا Playground أتاح استراتيجيات متنوعة ومخرجات شعر الممارسون أنها مفيدة. كما أن الاقتراحات التي قدمها الذكاء الاصطناعي في هذا Playground شجعت على التفكير الخلاق حتى عندما لم يتبع الممارسون هذه الاقتراحات بشكل صارم.

بالمجمل، تساهم هذه الدراسة في تعزيز قدرات الطرق الأوتوماتيكية والبشرية في Red-Teaming، موضحة أنماط التفاعل وأفكار التصميم التي تدعم التعاون بين الإنسان والذكاء الاصطناعي في عالم الذكاء الاصطناعي التوليدي.