في ظل الاستخدام المتزايد لنماذج اللغات الكبيرة (LLMs)، يتزايد الخوف من التهديدات التي قد تنتج عنها. تكشف دراسة جديدة كيف تغلق أساليب الدفاع، مثل فلاتر الرفض وأنظمة التحكم في الميزانية، الثغرات في هذه النماذج.
قام الباحثون بإجراء تجربة مكونة من 21 أداة فحص، وأنشأوا أربعة نماذج من دفاعات الذكاء الاصطناعي: نموذج $L_0$ بدون دفاعات، نموذج $L_1$ مع فلاتر الرفض، نموذج $L_2$ مع Controls ميزانية، ونموذج $L_3$ مع كل الدفاعات مجتمعة. أظهرت النتائج أن نموذج $L_1$ قد قطع جميع التهديدات المرتبطة بـ LLM01 (الاختراق) وLLM07 (تسريب النظام)، بينما أخرج نموذج $L_2$ التهديدات المرتبطة بـ LLM02 (كشف معلومات حساسة) وLLM10 (استهلاك غير محدود).
وفي سياق البحث، تم اختبار مرونة هذه الدفاعات ضد إعادة الصياغة، الأمر الذي أظهر أن نماذج $L_1$ تعرضت لانخفاض في قدرتها على الحماية بنسبة 15% ضد LLM01 و25% ضد LLM07 بعد استخدام إعادة صياغة بواسطة نموذج Gemini. هذه الفجوة تبرز كيفية إمكانية المهاجمين تكييف أساليبهم بطرق تعطل الدفاعات الحالية.
يستنتج الباحثون أن استخدام فلاتر الرفض يمكن أن يكون غير موثوق إذا كانت تقنيات إعادة الصياغة متاحة، بينما تحافظ تقنيات الميزانية على كفاءتها في مواجهة هذه التحديات. تقدم هذه الدراسة، إذًا، رؤية ثاقبة عن الطريقة التي يمكن من خلالها تعزيز فعالية التقنيات الدفاعية في زمن الذكاء الاصطناعي.
كيف تُغلق الدفاعات تهديدات الذكاء الاصطناعي؟ دراسة جديدة تكشف حقائق مذهلة!
تكشف دراسة حديثة عن فعالية مختلف استراتيجيات الدفاع ضد تهديدات نماذج اللغات الكبيرة (LLMs)، مع التركيز على وجود فجوات تبين ضعف بعض الإجراءات. تعرفوا على كيفية مواجهة هذه الثغرات!
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
