في عالم الذكاء الاصطناعي، تزداد الاعتماد على نماذج اللغات الضخمة (Large Language Models) كأداة رئيسية تدعم تنفيذ المهام المعقدة والتخصيص للمستخدمين. إلا أن هذه النماذج تواجه تحديات كبيرة، خاصة عندما يتعلق الأمر بآليات التحكم في الوصول التي تهدف إلى منع الطلبات المخالفة للسياسات. هنا يأتي الابتكار الجديد: تقنية FragFuse.

تستند FragFuse إلى فكرة جديدة تبرز من العمليات المرتبطة بذاكرة النماذج. لقد تمكنا من الكشف عن ثغرة جديدة تُتيح للمستخدمين غير المصرح لهم تجاوز آليات التحكم في الوصول. يتم هذا من خلال تجزئة المحتوى المحظور عبر تفاعلات متعددة وتخزينه في الذاكرة بشكل يبدو أنه آمن، ليتم استعادته لاحقًا من دون أن يظهر صراحة في استفسار المستخدم النهائي.

تقنية FragFuse تعمل على مراحل ثلاث:
1. **تحديد الأجزاء المستجيبة للرفض**: تعتمد على استعلامات ذات منهجية مظلمة لتكييف التجزئة.
2. **حقن الأجزاء في الذاكرة**: يتم ذلك باستخدام استفسارات حاملة للمؤشرات.
3. **استرجاع ودمج الأجزاء**: من خلال استعلام متابعة يُنفذ هجومًا مُصممًا.

على الرغم من إمكانية تنفيذ FragFuse يدويًا لكل عميل، تم تطوير مخطط تحسين يعتمد على نماذج بديلة، مما يتيح توليد هجمات تلقائية دون انتهاك افتراضات نمذجة التهديد.

تم تقييم FragFuse عبر أربع بيئات مختلفة لنماذج اللغة، مشمولة بعدد من آليات التحكم في الوصول. وأظهرت النتائج أن FragFuse تحقق معدل نجاح في تجاوز القيود يبلغ 86.3%، ومعدل نجاح في المهام الضارة بلغ 41.1%، مع تدهور طفيف في النجاح بمعدل 4.4% مقارنة بالبيئات التي لا تحتوي على آليات التحكم.

الأهم من ذلك، تُظهر الدراسة أن الدفاعات البديلة مثل أجهزة كشف حقن الاستفسارات وأجهزة كشف الصعوبة لا تعالج هذا النوع من الهجمات بفعالية. هذه النتائج تعكس أهمية تحسين آليات التحكم اللازمة لحماية نماذج اللغات الضخمة وضمان عدم إساءة استخدامها.

في ختام هذا المقال، يبقى السؤال مطروحًا: كيف يمكننا تعزيز آليات الأمان لحماية تقنيات الذكاء الاصطناعي من مثل هذه الابتكارات الهجومية؟ شاركونا برأيكم في التعليقات.