تقنية جديدة لزيادة أمان نماذج اللغة: كيف تم تقليل مخاطر الهجمات الضارة؟

في عالم الذكاء الاصطناعي، يعد الأمان من القضايا الرئيسية التي تشغل بال المطورين والباحثين في نماذج اللغة (Language Models). قد تتطلب أساليب تحسين الأمان التقليدية مجموعة بيانات معادية مرتبة، لكن الباحثين هنا اتخذوا مساراً جديداً.

يتمثل هذا النهج في تقييم صعوبة كل موجهة (Prompt) اعتماداً على مدى ضرر التقديرات الناتجة عن نموذج اللغة نفسه. وبالتالي، يتم التركيز على تدريب النموذج على أصعب الموجهات التي تم تقييمها مع التقديرات غير المعدلة للنموذج نفسه. وقد تم اختبار هذه الطريقة على نماذج Llama-3-8B-Instruct وLlama-3.2-3B-Instruct.

والنتيجة؟ تم تقليل معدل نجاح هجمات WildJailbreak من 11.5% و20.1% إلى نسبة تتراوح بين 1-3%! ولكن، هناك ثمن دفع، إذ ارتفعت معدلات الرفض لموجهات تبدو غير ضارة من 14-22% إلى 74-94%.

للتعويض عن هذه الزيادة، تم دمج الموجهات الصعبة بمعدل 1:1 مع موجهات معادية تبدو بريئة ولكنها في الواقع تحمل نوايا ضارة، مما ساعد على تقليل الرفض إلى نطاق يتراوح بين 30-51% على النموذج 8B و52-72% على نموذج 3B، مع فقدان بسيط يتراوح بين 2-6 نقاط مئوية من معدل نجاح الهجوم.

كما أظهرت النتائج أن التدريب على أصعب نصف من المجموعة المؤهلة بدلاً من نصف عشوائي يقلل من معدل النجاح في الهجمات بمقدار 35-50% (حوالي 3 نقاط مئوية) على كلا النموذجين.

بهذا التقييم الثاقب، تضع هذه الدراسات أسساً جديدة لتحسين أمان نماذج اللغة ضد التهديدات المتزايدة. فما رأيكم في هذه النتائج؟ هل تعتقدون أن هذا النهج سيكون له تأثير كبير في مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!

تقنية جديدة لزيادة أمان نماذج اللغة: كيف تم تقليل مخاطر الهجمات الضارة؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

الذكاء الاصطناعي: حلاً مبتكراً لتخفيف ضغوط الخدمات الصحية في المملكة المتحدة!

ميتا تطلق NeuralBench: إطار عمل موحد لتقييم نماذج NeuroAI عبر 36 مهمة EEG و94 مجموعة بيانات!

OpenAI تكشف النقاب عن بروتوكول MRC: ثورة في الشبكات لأسطح المكتب الخارقة للذكاء الاصطناعي!