استطاعت نماذج اللغات الضخمة (LLMs) أن تثبت كفاءتها في فهم النصوص وتوليدها، مما جعلها الخيار الأنسب للمهام الآلية مثل مراجعة الأكواد وإدارة المحتوى. ومع ذلك، كشف بحث جديد عن ثغرة أمنية خطيرة تكمن في إمكانية التلاعب بهذه النماذج بواسطة "تعليمات معادية" مخفية داخل البيانات المدخلة، مثل السير الذاتية أو الأكواد، مما يدفعها إلى الانحراف عن المهمة المحددة.
مثلاً، في سياق التصفية السيرة الذاتية، بالرغم من وجود بعض الدفاعات في مجالات ناضجة كالبرمجة، إلا أن هذه الدفاعات غالباً ما تكون غائبة عن التطبيقات الأخرى الشائعة. يقدم هذا البحث معياراً لتقييم هذه الثغرات في عملية تصفية السير الذاتية، واستعرض النتائج التي بينت أن نسبة نجاح الهجمات يمكن أن تتجاوز 80% لأنواع معينة من الهجمات.
تم تقييم آليتين للدفاع ضد هذه الثغرات؛ الأداة الأولى، التي تعتمد على تعليمات مفروضة، تمكنت من تقليل الهجمات بنسبة 10.1% لكنها أدت إلى زيادة في نسبة الرفض الخاطئ بمقدار 12.5%. أما الأداة الثانية، التي تم تطويرها تحت مسمى FIDS (الكشف عن التعليمات الأجنبية من خلال الفصل) باستخدام تقنية LoRA، فقد حققت تقليلاً في الهجمات بنسبة 15.4% مع زيادة في الرفض الخاطئ بنسبة 10.4%. وبالتوسع في استخدام الأسلوبين معاً، تم تحقيق تخفيض إجمالي في الهجمات بنسبة 26.3%، مما يثبت أن الدفاعات في مرحلة التدريب تتفوق على تلك التي تنفذ أثناء الاستدلال من حيث الأمان والحفاظ على الفعالية.
ومما لا شك فيه أن هذه الاكتشافات تثير القلق حول كيفية استخدام نماذج الذكاء الاصطناعي في مجالات متعددة وتضع الأمن السيبراني في مقدمة الأولويات. كيف ترون التحديات الأمنية التي تواجه هذه التطبيقات؟ شاركونا آرائكم في التعليقات.
ثغرات الذكاء الاصطناعي: الأمن في تقييم السير الذاتية وكشف المخاطر المستترة
تحدث البحث الجديد عن ثغرات نماذج اللغات الضخمة (LLMs) في تطبيقات متخصصة مثل تصفية السير الذاتية. النتائج تبين أن هذه الأنظمة قد تتعرض لهجمات تتجاوز نسبة نجاحها 80%.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
