في عالم الذكاء الاصطناعي المتطور، تعتمد التطبيقات المدعومة بنماذج اللغات الضخمة (Large Language Models) على سرية المعلومات المضمنة في الطلبات، ولكن ما الذي يحدث عندما يتم خداع هذه النماذج للإفصاح عن أسرارها؟
أظهرت الأبحاث الأخيرة التي نشرت في arXiv أن العديد من الدفاعات المستخدمة لمواجهة هجمات حقن الطلبات (Prompt Injection) لا تكون فعالة على المدى الطويل. فقد تم تطوير مهاجم تكيفي استخدم استراتيجيات متطورة لاختبار تسع تكوينات للدفاع عبر أكثر من 20000 هجوم، ووجد الباحثون أن جميع الدفاعات التي اعتمدت على النموذج نفسه لمواجهة الهجمات قد فشلت في نهاية المطاف.
الإحصائيات تتحدث: الدفاع الوحيد الذي أثبت فعاليته هو الفحص المسبق للمخرجات (Output Filtering)، حيث يتم فحص إجابات النموذج بواسطة قواعد ثابتة في كود التطبيقات قبل أن تصل إلى المستخدم، مما حقق حماية كاملة ضد 15,000 هجوم.
تأكيد هذه النتائج يشير إلى أن حدود الأمان يجب أن تتجسد في كود التطبيق، وليس في النموذج الذي يتعرض للاختراق. ومع ارتفاع معدلات الاستخدام للأنظمة التي تتعامل مع معلومات حساسة، يُنصح بشدة أن تقتصر هذه الأنظمة على موظفين موثوقين داخلياً، حتى يتم التحقق من الدفاعات بواسطة أدوات مثل Swept AI.
ثغرات في الدفاعات ضد هجمات حقن الطلبات على نماذج اللغات الضخمة: ضرورة الحذر!
كشف بحث جديد عن ضعف الدفاعات المستخدمة لحماية نماذج اللغات الضخمة (LLMs) من هجمات حقن الطلبات، مما يبرز الحاجة الملحة لتطبيق استراتيجيات حماية أكثر فعالية. ويظهر أن الفحص الجاد لمخرجات النماذج هو السبيل الوحيد لتحقيق الأمن.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
