في عالم الذكاء الاصطناعي، تظل نماذج اللغات الضخمة (Large Language Models - LLMs) عرضة لتهديدات أمنية من البيئة الخارجية. فعلى الرغم من نجاح هذه النماذج في أداء العديد من المهام، إلا أن هناك تحديات جديدة تلوح في الأفق.
يتعلق الأمر بهجوم السبات (Sleeper Attack)، حيث يتمكن المخترقون من حقن محتوى مؤذي في الملاحظات الخارجية مثل بيانات الأدوات أو صفحات الويب، مما يؤدي إلى سلوكيات غير آمنة وغير صحيحة من قبل الوكلاء (agents).
اللافت أن الدراسات السابقة كانت تركز بشكل أساسي على الهجمات ذات التفاعل الواحد، حيث يتعرض الوكيل لمحتوى ضار ويظهر سلوكًا ضارًا على الفور. ومع ذلك، أظهرت الأبحاث الحديثة أن المحتوى الضار يمكن أن يظل كامناً في حالة الوكيل، ثم يتم تفعيله لاحقًا من خلال استفسارات من مستخدمين بنائين، مما يجعل كشف هذه التهديدات والتخفيف منها أكثر تعقيدًا.
وقد تم تصنيف هذا النوع من التهديدات كمهاجمة السبات. لتقييم هذا التهديد بشكل فعال، تم إنشاء مرجع يتضمن 1,896 حالة تغطي ستة نتائج ضارة حقيقية، وثلاث استراتيجيات للهجوم، وثلاثة أهداف لحالة الوكيل: سياق الجلسة، الذاكرة، والقدرات القابلة لإعادة الاستخدام.
أظهرت التجارب على سبع نماذج LLM مفتوحة المصدر ومغلقة المصدر أن النماذج المتقدمة ما زالت عرضة لهجوم السبات، حتى عندما تحقق معدلات نجاح منخفضة تحت أسس التفاعل الواحد. إن الكشف عن هذا الضعف يوفر مسارًا جديدًا لفهم كيفية حماية نماذج الذكاء الاصطناعي بشكل فعال.
ما رأيكم في هذه التطورات الجديدة؟ كيف يمكن للنماذج الذكية أن تتكيف لمواجهة هذه التهديدات؟ شاركونا آرائكم في التعليقات!
هجوم السبات على نماذج اللغات الضخمة: كيف تتسلل المخاطر عبر التفاعل!
تواجه نماذج اللغات الضخمة تهديدات أمنية جديدة من خلال هجوم السبات، حيث يمكن للمحتوى الضار البقاء كامناً وتفعيل سلوكيات غير آمنة. تكشف الدراسات الحديثة عن ضعف هذه النماذج أمام هذه المخاطر المتطورة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
