في عالم الذكاء الاصطناعي، يعد سلوك التوضيح (Clarification-seeking behavior) واحداً من الخصائص المرغوبة لوكلاء نماذج اللغات الضخمة (Large Language Models). إذ يساعد هذا السلوك الوكلاء في تجاوز الغموض قبل اتخاذ الإجراءات المتعلقة بالمهام غير المحددة بوضوح. ولكن، ماذا عن الآثار الأمنية لهذا التفاعل؟

دراسة جديدة تحت عنوان ASPI (Ambiguous-State Prompt Injection) تسلط الضوء على هذا السؤال الدقيق. تتناول الدراسة تأثير الانتقال من التنفيذ القياسي إلى حالة السعي للحصول على توضيح على تعرض الوكلاء لهجمات حقن الأوامر (Prompt Injection Attacks). قمنا بتطوير معيار يتضمن 728 سيناريو لمهام وهجمات، حيث يتم عزل التوضيح كحالة مستقلة لوكيل الذكاء الاصطناعي، وتقييم مدى تأثير هذا الانتقال على تعرضه للهجمات في ظل ظروف مسيطرة.

في حالات الاختبار المختلفة، تم تقييم عشرة من النماذج المتقدمة، ووجدت الدراسة أن السعي للتوضيح يزيد بشكل كبير من تعرض الوكلاء للهجمات. على سبيل المثال، ارتفعت نسبة نجاح الهجمات من 1.8% إلى 34% بالنسبة لنموذج o3، ومن 2.2% إلى 35.7% بالنسبة لنموذج Gemini-3-Flash.

تكشف التحليلات العميقة أن هذه الفجوة تعكس تحولًا يعتمد على الحالة في كيفية معالجة النماذج للمحتوى الوارد، بالإضافة إلى تأثيرات متعلقة بالقناة نتيجة لواجهة التوضيح التي يطلبها الوكيل. توضح هذه النتائج أن التقييم القياسي للأمان أثناء التنفيذ قد يقلل بشكل منهجي من عرضة الوكلاء للهجمات، وأن القابلية للمتانة في المهام المحددة بالكامل لا تعني بالضرورة القدرة على التعامل مع الغموض.

في ضوء هذه النتائج المهمة، يصبح من الملح للجميع تعزيز أمان وكالات الذكاء الاصطناعي في ظل الظروف الغامضة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.