في عالم الذكاء الاصطناعي المتطور بسرعة، أصبحت المهارات الخارجية (Third-party skills) جزءًا أساسيًا من النظام البيئي لوكالات نماذج اللغة الضخمة (Large Language Models). هذه المهارات تجمع بين التعليمات الطبيعية والبرمجيات المساعدة والقوالب والمستندات وإعدادات الخدمة في إجراءات عمل قابلة لإعادة الاستخدام. ولكن رغم فوائدها الكبيرة، فإنها تجلب تحديات أمنية جديدة؛ حيث يمكن لمهارة خبيثة أن تخفي سلوكًا ضارًا كجزء من عملية عمل روتينية دون الحاجة إلى طلب صريح من النموذج لتنفيذ فعل ضار.
لذا، تم تقديم أداة AgentTrap، وهي مرجع ديناميكي يهدف إلى تقييم قدرة وكالات نماذج اللغة الضخمة على استخدام المهارات الخارجية مع مقاومة السلوكيات الضارة أثناء التشغيل. تحتوي AgentTrap على 141 مهمة تشمل 91 مهمة خبيثة و50 مهمة نفعية، تغطي 16 بعدًا أمنيًا مستندة إلى تهديدات سلسلة توريد المهارات.
في كل مهمة، يتلقى الوكيل طلب مستخدم عادي، ويعمل مع المهارات المثبتة التي قد تحتوي على عناصر عمل خبيثة، وتُنفذ في بيئة محصورة. تقوم AgentTrap بعد ذلك بتقييم المسارات الكاملة لنجاح الهجوم، السلوك المحظور أو المرفوض، حالات عدم ت Trigger الهجوم، ونتائج عدم وجود دليل على الهجوم.
النتيجة الأساسية التي توصلت إليها الدراسة هي أن الفشل الأكثر إفادة ليست مجرد عمليات كسر للبرنامج (jailbreaks) بسيطة. حيث تكمل النماذج غالبًا المهمة المرئية للمستخدم، مع اعتبار التأثيرات الجانبية غير الآمنة التي قدمتها المهارة جزءًا من سير العمل الطبيعي. هذا يدعو إلى تقييم الأداء في بيئة النموذج-الإطار-المساحة التي ينفذ فيها المستخدمون فعليًا مهامهم.
يمكنكم العثور على الشيفرة والبيانات في الرابطين التاليين: [https://github.com/zhmzm/AgentTrap](https://github.com/zhmzm/AgentTrap) و[https://huggingface.co/datasets/zhmzm/AgentTrap](https://huggingface.co/datasets/zhmzm/AgentTrap). فما رأيكم في هذه الابتكارات الجديدة في عالم الذكاء الاصطناعي؟ شاركونا برأيكم في التعليقات!
آفاق جديدة: قياس حالات الفشل الثقة للمهارات الخارجية في وكالات الذكاء الاصطناعي
استكشف كيفية تأثير المهارات الخارجية على أداء وكالات الذكاء الاصطناعي، واكتشف أداة AgentTrap الجديدة التي تقيس ثقة هذه المهارات. ابتكار يكشف عن المخاطر الأمنية المحتملة في عمليات الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
