تسعى منصات الذكاء الاصطناعي المفتوحة إلى تمكين المساهمين من إنشاء مهارات قابلة لإعادة الاستخدام يمكن للوكالات الذكية استحضارها في الوقت الحقيقي. ولكن، كما هو الحال مع أي نظام مفتوح، فإن هذه المرونة تعرض النظام لمخاطر جديدة، حيث يمكن لمساهمين خبيثين إدخال سلوكيات ضارة داخل مهارات تبدو للوهلة الأولى غير ضارة. لمعالجة هذا التحدي، تم تطوير نظام SkillVetBench، وهو معيار متقدم يتكون من مرحلتي مراجعة للأمان في البيئات الذكية.

في المرحلة الأولى، يقوم SkillVetBench بإجراء فحص دلالي على مواصفات المهارات المكتوبة بلغة طبيعية للكشف عن أي نوايا خبيثة مخفية. تلك المهارات التي يتم تصنيفها خطرًا يتم نقلها إلى المرحلة الثانية، حيث تُنفذ في بيئة مُعدة خصيصًا لمراقبة سلوكها عند التشغيل وجمع الأدلة القابلة للتدقيق.

بناءً على عينة من المهارات الضارة المعروفة ضمن نظام OpenClaw، بما في ذلك بعض الحوادث من حملة ClawHavoc، أظهرت التجارب أن الوسائل التقليدية، مثل تحليل التوقيع، ليست فعالة، حيث تفوت ما يصل إلى 89٪ من المهارات الخطرة، يعود السبب في ذلك إلى أنها تعتمد على التعليمات بلغة طبيعية أو تتفاعل مع مكونات متعددة.

تُركز الهجمات التي تحدث خلال وقت التشغيل بشكل كبير على مجموعة صغيرة من العمليات ذات الأذونات العالية مثل exec وwrite_file وinstall_skill وspawn. تعزز نتائج SkillVetBench من موثوقية الفحوصات بفضل الأدلة الملموسة التي يتم جمعها من التشغيل في البيئة المعزولة.

مع استمرار تطور منصات الذكاء الاصطناعي، تبدو الحاجة ملحة لتحسين طرق الكشف عن المخاطر وضمان أمان المستخدمين. كيف ترون تطور هذه التقنيات الجديدة في حماية الأنظمة الذكية؟