في عالم الذكاء الاصطناعي، تعد نماذج اللغة الضخمة (Large Language Models) من أعظم الابتكارات التكنولوجية، ومع ذلك، فإنها ليست خالية من التحديات الأمنية. دراسة حديثة نشرت في arXiv تسلط الضوء على نقطة ضعف جديدة تتعلق بتقنية هجوم التعليمات (Prompt Injection) التي يمكن أن تؤثر بشكل كبير على الأداء.

باختصار، يتيح هذا النوع من الهجوم لطرف ثالث التحكم في جزء من السياق الخاص بالنموذج، مما يسمح له بزرع تعليمات يمكن أن ينفذها النموذج كما لو كانت من المستخدم. هذه الدراسة تأخذ خطوة إضافية من خلال اختبار 13 نموذج لغة من ست عائلات، مما يكشف أن السطح المستخدم لتقديم التعليمات يلعب دورًا كبيرًا في نجاح الهجوم.

النتائج كانت مثيرة حيث أظهرت أن نموذج GPT-4.1 معرض للضعف بنسبة 96% عند استخدام مخرجات الأدوات، ولكن الضعف ينخفض إلى 4% فقط عند استخدام أوصاف الأدوات. من جهة أخرى، يظهر نموذج GEMINI-3-FLASH نمطًا مقلوبًا، حيث كانت نسبة الضعف 20% مع مخرجات الأدوات مقابل 98% عند استخدام الأوصاف.

تشير هذه النتائج إلى أن الضعف ليس مجرد نتيجة للسطح المستخدم وحده، بل يتعلق بالتفاعل بين النموذج والسطح، حيث أظهرت التحليلات أن 16.7% من التباين في نتائج الهجوم يمكن أن يُعزى إلى هذا التفاعل.

لذا، يجب أن تتضمن تقييمات الدفاع ضد الهجمات تقارير عن الضعف وفقًا لكل سطح. علاوة على ذلك، على الرغم من أن الدفاعات على مستوى التعليمات يمكن أن تقلل من معدل الضعف عند مخرجات الأدوات إلى 10-18%، إلا أن قناة الأوصاف تبقى فوق 54%.

في النهاية، تمثل هذه الدراسة خطوة مهمة نحو فهم أعمق لسياسات الأمان اللازمة لحماية نماذج اللغة من الأنشطة الضارة. ما هي توقعاتكم لاستمرارية تطور هذا المجال؟