في عالم الذكاء الاصطناعي، يعد [سلوك](/tag/سلوك) التوضيح (Clarification-seeking behavior) واحداً من الخصائص المرغوبة لوكلاء [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) (Large Language [Models](/tag/models)). إذ يساعد هذا السلوك [الوكلاء](/tag/الوكلاء) في تجاوز [الغموض](/tag/الغموض) قبل اتخاذ الإجراءات المتعلقة بالمهام غير المحددة بوضوح. ولكن، ماذا عن الآثار الأمنية لهذا [التفاعل](/tag/التفاعل)؟

[دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) تحت عنوان ASPI (Ambiguous-State Prompt Injection) تسلط الضوء على هذا السؤال الدقيق. تتناول [الدراسة](/tag/الدراسة) تأثير الانتقال من التنفيذ القياسي إلى حالة السعي للحصول على توضيح على تعرض [الوكلاء](/tag/الوكلاء) لهجمات [حقن الأوامر](/tag/حقن-الأوامر) (Prompt Injection Attacks). قمنا بتطوير معيار يتضمن 728 سيناريو لمهام وهجمات، حيث يتم عزل التوضيح كحالة مستقلة لوكيل الذكاء الاصطناعي، وتقييم مدى تأثير هذا الانتقال على تعرضه للهجمات في ظل ظروف مسيطرة.

في حالات الاختبار المختلفة، تم [تقييم](/tag/تقييم) عشرة من [النماذج](/tag/النماذج) المتقدمة، ووجدت [الدراسة](/tag/الدراسة) أن السعي للتوضيح يزيد بشكل كبير من تعرض [الوكلاء](/tag/الوكلاء) للهجمات. على سبيل المثال، ارتفعت نسبة [نجاح](/tag/نجاح) الهجمات من 1.8% إلى 34% بالنسبة لنموذج o3، ومن 2.2% إلى 35.7% بالنسبة لنموذج [Gemini](/tag/gemini)-3-Flash.

تكشف التحليلات العميقة أن هذه [الفجوة](/tag/الفجوة) تعكس تحولًا يعتمد على الحالة في كيفية معالجة [النماذج](/tag/النماذج) للمحتوى الوارد، بالإضافة إلى [تأثيرات](/tag/تأثيرات) متعلقة بالقناة نتيجة لواجهة التوضيح التي يطلبها الوكيل. توضح هذه النتائج أن [التقييم](/tag/التقييم) القياسي للأمان أثناء التنفيذ قد يقلل بشكل منهجي من عرضة [الوكلاء](/tag/الوكلاء) للهجمات، وأن القابلية للمتانة في المهام المحددة بالكامل لا تعني بالضرورة القدرة على التعامل مع [الغموض](/tag/الغموض).

في ضوء هذه النتائج المهمة، يصبح من الملح للجميع تعزيز [أمان](/tag/أمان) [وكالات الذكاء الاصطناعي](/tag/[وكالات](/tag/وكالات)-الذكاء-الاصطناعي) في ظل الظروف الغامضة. ما رأيكم في هذا التطور؟ شاركونا في [التعليقات](/tag/التعليقات).