في عالم الذكاء الاصطناعي، تزداد الاعتماد على نماذج اللغات الضخمة (Large Language Models) كأداة رئيسية تدعم تنفيذ المهام المعقدة والتخصيص للمستخدمين. إلا أن هذه النماذج تواجه تحديات كبيرة، خاصة عندما يتعلق الأمر بآليات التحكم في الوصول التي تهدف إلى منع الطلبات المخالفة للسياسات. هنا يأتي الابتكار الجديد: تقنية FragFuse.
تستند FragFuse إلى فكرة جديدة تبرز من العمليات المرتبطة بذاكرة النماذج. لقد تمكنا من الكشف عن ثغرة جديدة تُتيح للمستخدمين غير المصرح لهم تجاوز آليات التحكم في الوصول. يتم هذا من خلال تجزئة المحتوى المحظور عبر تفاعلات متعددة وتخزينه في الذاكرة بشكل يبدو أنه آمن، ليتم استعادته لاحقًا من دون أن يظهر صراحة في استفسار المستخدم النهائي.
تقنية FragFuse تعمل على مراحل ثلاث:
1. **تحديد الأجزاء المستجيبة للرفض**: تعتمد على استعلامات ذات منهجية مظلمة لتكييف التجزئة.
2. **حقن الأجزاء في الذاكرة**: يتم ذلك باستخدام استفسارات حاملة للمؤشرات.
3. **استرجاع ودمج الأجزاء**: من خلال استعلام متابعة يُنفذ هجومًا مُصممًا.
على الرغم من إمكانية تنفيذ FragFuse يدويًا لكل عميل، تم تطوير مخطط تحسين يعتمد على نماذج بديلة، مما يتيح توليد هجمات تلقائية دون انتهاك افتراضات نمذجة التهديد.
تم تقييم FragFuse عبر أربع بيئات مختلفة لنماذج اللغة، مشمولة بعدد من آليات التحكم في الوصول. وأظهرت النتائج أن FragFuse تحقق معدل نجاح في تجاوز القيود يبلغ 86.3%، ومعدل نجاح في المهام الضارة بلغ 41.1%، مع تدهور طفيف في النجاح بمعدل 4.4% مقارنة بالبيئات التي لا تحتوي على آليات التحكم.
الأهم من ذلك، تُظهر الدراسة أن الدفاعات البديلة مثل أجهزة كشف حقن الاستفسارات وأجهزة كشف الصعوبة لا تعالج هذا النوع من الهجمات بفعالية. هذه النتائج تعكس أهمية تحسين آليات التحكم اللازمة لحماية نماذج اللغات الضخمة وضمان عدم إساءة استخدامها.
في ختام هذا المقال، يبقى السؤال مطروحًا: كيف يمكننا تعزيز آليات الأمان لحماية تقنيات الذكاء الاصطناعي من مثل هذه الابتكارات الهجومية؟ شاركونا برأيكم في التعليقات.
ثورة جديدة في الذكاء الاصطناعي: الهجوم على السيطرة في نماذج اللغات الضخمة عبر ذاكرة التجزئة!
يستعرض هذا المقال تقنية جديدة تُعرف بـ FragFuse، التي تمكن المستخدمين غير المصرح لهم من تجاوز آليات التحكم في الوصول لنماذج اللغات الضخمة. تعرَّف على كيفية استغلال الذاكرة الطويلة الأمد لتحقيق هذا الهجوم المبتكر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
