تشهد الآونة الأخيرة انتشاراً متزايداً في استخدام المهارات القابلة لإعادة الاستخدام كواجهة لتوسيع قدرات وكلاء النماذج اللغوية الضخمة (Large Language Models). حيث تجمع هذه المهارات بين توجيهات إجرائية وإمكانية الوصول إلى الملفات والأدوات والذاكرة وبيئات التنفيذ. لكن، على الرغم من الفوائد الكبيرة الناتجة عن هذا التنوع، إلا أن هذه الخصائص تفتح أبواباً جديدة للهجمات التي قد تمر دون أن تكتشفها التقييمات الحالية للسلامة.
حتى وإن كانت طلبات المستخدمين تبدو غير ضارة، فإن التأثيرات غير الآمنة يمكن أن تكمن في توجيه المهارات أو عناصر محلية أو ملفات بيئات التنفيذ التي يمكن أن تدفع الوكيل نحو أفعال غير آمنة. من هنا، يأتي دور معيار SkillSafetyBench، الذي يُعد معياراً قابل للتنفيذ لتقييم نوعية الأمان التي يقدمها الوكلاء عند التعامل مع المهارات.
يشتمل SkillSafetyBench على 155 حالة عدائية تغطي 47 مهمة، و6 مجالات خطر، و30 فئة أمان، حيث تم تقييم كل منها باستخدام مثبت معين للقاعدة مرتبط بالحالة. أظهرت التجارب مع عدة وكلاء من واجهة سطر الأوامر (CLI) ونماذج خلفية أن الهجمات غير الموجهة من قبل المستخدم يمكن أن تحفز باستمرار سلوكيات غير آمنة، مع أنماط فشل مميزة تعتمد على المجال، وطرق الهجوم، وتوافق النماذج العامة.
تشير نتائجنا إلى أن أمان الوكلاء لا يعتمد فقط على توافق النماذج على مستوى القاعدة، بل يرتبط أيضاً بكيفية تفسير الوكلاء للمهارات، وثقتهم بالبيئة العملية، وتصرفاتهم عبر بيئات التنفيذ. تعد هذه النتائج منطلقاً لفهمٍ أعمق لتحديات الأمان في أنظمة الذكاء الاصطناعي المستقبلية.
SkillSafetyBench: تقييم أمان الوكلاء في مواجهة هجمات المهارات!
تقدم SkillSafetyBench معياراً جديداً لتقييم سلامة الوكلاء الذكيين. يكشف هذا المعيار كيف يمكن للهجمات غير المباشرة التأثير على سلوك الوكلاء، مما يثري نقاش سلامة الذكاء الاصطناعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
