في عالم الذكاء الاصطناعي، يمكن لمهارات الوكلاء (Agent Skills) أن تكون قادرة على تنفيذ إجراءات حساسة مثل حذف المستندات أو تحويل الأموال، دون تعرضها لأي هجوم. هذا ما يكشف عنه بحث جديد يناقش مفهوم "انتهاكات المواصفات" (Specification Violations) التي تحدث عند إدخال مدخلات غير ضارة تؤدي إلى كسر الوكيل لقواعد الأمان المعلنة.

لكن ما هو السبب وراء هذه الانتهاكات؟ يعود ذلك إلى عدم تعريف الأبعاد اللغوية بشكل صحيح أو تجاهل التنفيذ للقيود الموثقة. وعلى الرغم من أن هذه الانتهاكات ليست مرئية للمحللين الثابتين أو وسائل الدفاع التقليدية ضد الاختراق، إلا أنها تمثل تهديداً حقيقياً للثقة التي يضعها المستخدمون في مهارات الوكلاء.

يقدم الباحثون نظام Sefz، وهو إطار عمل لفحص الانتهاكات بشكل دلالي، يقوم باكتشاف هذه الانتهاكات الآلية في مهارات الوكلاء. يقوم Sefz بترجمة كل قاعدة أمان إلى هدف قابل للوصول عبر تسلسل زمني موثق، مما يقلل عملية التحقق من الانتهاكات إلى استعلامات رسومية حتمية.

يعتمد نظام Sefz على مُعدل قائم على نموذج لغوي كثيف (LLM) لتوليد مدخلات غير ضارة تجعل التسلسلات الزمنية تقترب تدريجياً من أنماط الانتهاك، مُقادة بواسطة آلية تعتمد على التعلم المعزز. في تجربة شملت 402 مهارة حقيقية من أكبر سوق للمهارات العامة، اكتشف Sefz 120 انتهاكاً، أي ما يعادل 29.9%، بما في ذلك 26 انتهاكاً جديداً لم يُكتشف سابقاً.

تُشير النتائج إلى وجود ستة تحديات متكررة تتسبب في هذه الإخفاقات، مما يقترح مبادئ محددة لتصميم مهارات أكثر أماناً. هل تعتقد أن الذكاء الاصطناعي يمكن أن يكون موثوقاً تماماً؟ شاركونا آراءكم في التعليقات!