اكتشاف المخاطر: PersonaTeaming تمهد الطريق لمستقبل أمان الذكاء الاصطناعي

في ظل النمو المتسارع في أبحاث أمان الذكاء الاصطناعي، تم تسليط الضوء على الحاجة إلى طرق Red-Teaming فعالة تكشف عن المخاطر المحتملة التي قد تطرحها نماذج الذكاء الاصطناعي التوليدية. وقد أثبتت الدراسات أن خلفيات وجهات نظر المحللين تلعب دوراً حاسماً في استراتيجياتهم والمخاطر التي يستخرجونها.

تظهر الطرق الأوتوماتيكية في Red-Teaming وعوداً كبيرة، حيث يمكن أن تكمل المجهودات البشرية من خلال استكشاف أوسع. غير أن هذه الطرق الحالية لا تأخذ بعين الاعتبار الهويات الإنسانية ولا تتضمن مدخلات البشر في كثير من الأحيان.

هذا ما تقدمه PersonaTeaming، التي تطور نموذج Workflows يعتمد على الشخصيات (Personas) في عملية توليد الحوافز العدائية، مما يسمح باستكشاف مجموعة واسعة من الاستراتيجيات العدائية. بالمقارنة مع RainbowPlus، وهي طريقة Red-Teaming أوتوماتيكية رائدة، أثبت PersonaTeaming Workflow نجاحاً أعلى في الهجمات مع الحفاظ على تنوع الحوافز.

لكن، بما أن الشخصيات الأوتوماتيكية لا تعكس بشكل دقيق وجهات النظر البشرية، تم تطوير PersonaTeaming Playground، وهو واجهة تفاعلية تتيح للمحللين تأليف شخصياتهم الخاصة والتعاون مع الذكاء الاصطناعي لتعديل وتحسين المحفزات. في دراسة استخدام مع 11 ممارساً من الصناعة، ثبت أن هذا Playground أتاح استراتيجيات متنوعة ومخرجات شعر الممارسون أنها مفيدة. كما أن الاقتراحات التي قدمها الذكاء الاصطناعي في هذا Playground شجعت على التفكير الخلاق حتى عندما لم يتبع الممارسون هذه الاقتراحات بشكل صارم.

بالمجمل، تساهم هذه الدراسة في تعزيز قدرات الطرق الأوتوماتيكية والبشرية في Red-Teaming، موضحة أنماط التفاعل وأفكار التصميم التي تدعم التعاون بين الإنسان والذكاء الاصطناعي في عالم الذكاء الاصطناعي التوليدي.

اكتشاف المخاطر: PersonaTeaming تمهد الطريق لمستقبل أمان الذكاء الاصطناعي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

دفاعات إلكترونية مبتكرة: نموذج CyberSecQwen-4B وجعل الأمن الإلكتروني محليًا!

ثورة جديدة في نماذج اللغة الصغيرة: تحسين توليد Bash باعتماد تقنيات القواعد

إطلاق نموذج EMO: ثورة في التدريب المختلط للخبراء من أجل التحول المعياري!