في السنوات الأخيرة، شهدت نماذج اللغات الضخمة (LLMs) تحولاً كبيراً في مجال الذكاء الاصطناعي، حيث مهدت الطريق لتطبيقات مبتكرة في مجالات متنوعة مثل الرعاية الصحية، وهندسة البرمجيات، وأنظمة المحادثة. ورغم هذه الإنجازات، فإنها ليست بدون ثغرات. تبرز المخاطر المتعلقة بهجمات اختراق الأنظمة (jailbreaking) وهجمات حقن المدخلات (prompt injection) كأحد أهم التحديات التي تواجه هذه النماذج.

يستعرض هذا المقال الحالة الحالية للأبحاث المتعلقة بهذه الثغرات وسُبل الدفاع المتاحة ضدها. قمنا بتصنيف أساليب الهجوم إلى عدة فئات تشمل أساليب قائمة على الرسائل الترويجية (prompt-based) والنماذج (model-based) والتقنيات متعددة الوسائط (multimodal) واللغات المتعددة (multilingual). تتنوع التكتيكات المستخدمة في هذه الهجمات لتشمل التوجيه العدائي، حقن الأبواب الخلفية، والانتهاكات عبر الوسائط.

بالإضافة إلى ذلك، نقوم بمراجعة آليات الدفاع المختلفة، بما في ذلك تصفية الرسائل الترويجية، تقنيات التحويل، استراتيجيات المحاذاة، الدفاعات متعددة الوكالات، والتنظيم الذاتي، مع تقييم نقاط قوتها وضعفها. نناقش أيضًا المعايير الأساسية والأدوات المستخدمة لتقييم سلامة نماذج اللغات الضخمة ومتانتها، مع الإشارة إلى التحديات مثل قياس نجاح الهجمات في سياقات تفاعلية والتحيزات في المجموعات البيانية الموجودة.

نؤكد على أهمية استكشاف الفجوات البحثية الحالية ونقترح اتجاهات المستقبل لاستراتيجيات المحاذاة المرنة والدفاعات المتقدمة ضد الهجمات المتطورة، بالإضافة إلى أتمتة الكشف عن الاختراقات والأخذ بالاعتبار الأبعاد الأخلاقية والاجتماعية. إن هذا المقال يعبر عن الحاجة الملحة للاستمرار في البحث والتعاون ضمن مجتمع الذكاء الاصطناعي لزيادة أمان نماذج اللغات الضخمة وضمان نشرها بشكل آمن.