في عالم الذكاء الاصطناعي، يعد الأمان من القضايا الرئيسية التي تشغل بال المطورين والباحثين في نماذج اللغة (Language Models). قد تتطلب أساليب تحسين الأمان التقليدية مجموعة بيانات معادية مرتبة، لكن الباحثين هنا اتخذوا مساراً جديداً.
يتمثل هذا النهج في تقييم صعوبة كل موجهة (Prompt) اعتماداً على مدى ضرر التقديرات الناتجة عن نموذج اللغة نفسه. وبالتالي، يتم التركيز على تدريب النموذج على أصعب الموجهات التي تم تقييمها مع التقديرات غير المعدلة للنموذج نفسه. وقد تم اختبار هذه الطريقة على نماذج Llama-3-8B-Instruct وLlama-3.2-3B-Instruct.
والنتيجة؟ تم تقليل معدل نجاح هجمات WildJailbreak من 11.5% و20.1% إلى نسبة تتراوح بين 1-3%! ولكن، هناك ثمن دفع، إذ ارتفعت معدلات الرفض لموجهات تبدو غير ضارة من 14-22% إلى 74-94%.
للتعويض عن هذه الزيادة، تم دمج الموجهات الصعبة بمعدل 1:1 مع موجهات معادية تبدو بريئة ولكنها في الواقع تحمل نوايا ضارة، مما ساعد على تقليل الرفض إلى نطاق يتراوح بين 30-51% على النموذج 8B و52-72% على نموذج 3B، مع فقدان بسيط يتراوح بين 2-6 نقاط مئوية من معدل نجاح الهجوم.
كما أظهرت النتائج أن التدريب على أصعب نصف من المجموعة المؤهلة بدلاً من نصف عشوائي يقلل من معدل النجاح في الهجمات بمقدار 35-50% (حوالي 3 نقاط مئوية) على كلا النموذجين.
بهذا التقييم الثاقب، تضع هذه الدراسات أسساً جديدة لتحسين أمان نماذج اللغة ضد التهديدات المتزايدة. فما رأيكم في هذه النتائج؟ هل تعتقدون أن هذا النهج سيكون له تأثير كبير في مستقبل الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات!
تقنية جديدة لزيادة أمان نماذج اللغة: كيف تم تقليل مخاطر الهجمات الضارة؟
اعتمد الباحثون نهجاً مبتكراً لتقليل مخاطر الهجمات الضارة على نماذج اللغة من خلال تقييم صعوبة الموجهات. تشير النتائج إلى نجاحات ملحوظة في تحسين الأمان من خلال تقنيات التدريب المتقدمة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
