في ظل الاستخدام المتزايد لنماذج اللغات الكبيرة (LLMs)، يتزايد الخوف من التهديدات التي قد تنتج عنها. تكشف دراسة جديدة كيف تغلق أساليب الدفاع، مثل فلاتر الرفض وأنظمة التحكم في الميزانية، الثغرات في هذه النماذج.

قام الباحثون بإجراء تجربة مكونة من 21 أداة فحص، وأنشأوا أربعة نماذج من دفاعات الذكاء الاصطناعي: نموذج $L_0$ بدون دفاعات، نموذج $L_1$ مع فلاتر الرفض، نموذج $L_2$ مع Controls ميزانية، ونموذج $L_3$ مع كل الدفاعات مجتمعة. أظهرت النتائج أن نموذج $L_1$ قد قطع جميع التهديدات المرتبطة بـ LLM01 (الاختراق) وLLM07 (تسريب النظام)، بينما أخرج نموذج $L_2$ التهديدات المرتبطة بـ LLM02 (كشف معلومات حساسة) وLLM10 (استهلاك غير محدود).

وفي سياق البحث، تم اختبار مرونة هذه الدفاعات ضد إعادة الصياغة، الأمر الذي أظهر أن نماذج $L_1$ تعرضت لانخفاض في قدرتها على الحماية بنسبة 15% ضد LLM01 و25% ضد LLM07 بعد استخدام إعادة صياغة بواسطة نموذج Gemini. هذه الفجوة تبرز كيفية إمكانية المهاجمين تكييف أساليبهم بطرق تعطل الدفاعات الحالية.

يستنتج الباحثون أن استخدام فلاتر الرفض يمكن أن يكون غير موثوق إذا كانت تقنيات إعادة الصياغة متاحة، بينما تحافظ تقنيات الميزانية على كفاءتها في مواجهة هذه التحديات. تقدم هذه الدراسة، إذًا، رؤية ثاقبة عن الطريقة التي يمكن من خلالها تعزيز فعالية التقنيات الدفاعية في زمن الذكاء الاصطناعي.