تتزايد Vulnerabilities (الضعف) التي تواجه نماذج اللغات الضخمة (LLMs) نتيجة لهجمات خبيثة تستغل الغموض الدلالي لتجاوز آليات الأمان، مما يؤدي إلى إنتاج محتوى ضار وغير مناسب. وهذه التهديدات مثل ‘jailbreaking’ و‘prompt injection’ تشكل مخاطر كبيرة على نزاهة وتوفر هذه الأنظمة في التطبيقات الحرجة.

في بحث جديد، تم اقتراح إطار عمل يسمى Adversarial Prompt Disentanglement (APD) كآلية دفاعية مبتكرة تتطلع إلى التعرف على العناصر الضارة في المداخل وحيادتها قبل أن تتم معالجتها من قبل LLMs. يجمع إطار APD بين ثلاثة ابتكارات رئيسية:
1. **أسلوب تفكيك دلالي قائم على المعلومات المتبادلة**: يعمل على عزل المكونات الضارة من المكونات الحميدة، مما يضمن الاستقلال الإحصائي.
2. **منهج تصنيف النية القائم على الرسوم البيانية**: يستخدم التحليل الطيفي لاكتشاف الأنماط الضارة في دلالات المداخل.
3. **مصنف قائم على المحول (Transformer)**: مصمم للتصنيف الفعال والسريع للنيات الضارة، معتمدًا على بيانات حقيقية تتعلق بالمداخل السامة وأعمال الهجوم.

وعند تقييمه على مجموعات بيانات متنوعة تحتوي على مداخل عدائية، يُظهر إطار APD متانة ملحوظة، حيث تمكن من تقليل إنتاج المخرجات الضارة بأكثر من 85٪ مع الحفاظ على أداء النموذج. علاوةً على ذلك، تدعم كفاءة الإطار الحسابي نشره في الوقت الحقيقي، مما يجعله حلاً عمليًا لضمان أمان LLMs.

يهدف هذا العمل إلى معالجة التحديات الحرجة في أمان التعلم الآلي، ويسلط الضوء على الأساليب الأخلاقية والممنهجة لمواجهة التهديدات التي تستهدف أنظمة الذكاء الاصطناعي.