نحن هنا لنقدم 여러분 نظام SkillVetBench، والذي يعتبر بمثابة لوح متصدر عام (Public Leaderboard) على منصة Hugging Face يستخدم LLM كحكم لتقييم مهارات الوكلاء.
ما هو الجديد؟
نقدّم مقياس SARS (Skill Agentic Risk Score)، وهو مقياس لخطر تعاونية الروبوتات يتضمن خمسة أبعاد مع صيغة موزونة محكمة مناسبة لأنظمة اتباع التعليمات.
ما الذي تم دمجه؟
تحليل كامل لمتجهات CVSS v4.0 ونظرة ثنائية الاتجاه عبر ClawHub، مما يتيح لنا مقارنة مراجعتنا التي تنتجها LLM مع تقييم السوق الرسمي.
النتائج المثيرة
أظهر نظام LLM كحكم معدلات نجاح صفرية في الكشف عن التهديدات بين 78 مهارة خبيثة مؤكدة، وصفر إيجابيات كاذبة بين 22 حالة بناءة، بينما أفضل أداة ثابتة (SKILLSIEVE) لا تزال تواجه إخفاقاً في كشف 15% من المخاطر. بالنسبة للفئات المتعلقة بمستوى التعليمات مثل حقن التعليمات (Prompt Injection) وتسمم الذاكرة (Memory Poisoning)، فإن الأدوات التقليدية تفشل في كشف ما بين 89% و100% من التهديدات.
تتراوح معدلات الكشف بين 35% و95% عبر أربعة مقيمين للـ LLM، مما يبرز الحاجة لتطبيق نظام تصنيف جماعي في النشر.
إن SkillVetBench لا يمثل مجرد تطور آخر في مجال الأمن السيبراني، بل نقطة تحول في كيفية تعاملنا مع المخاطر المتزايدة في عالم الذكاء الاصطناعي. فهل أنتم مستعدون لاستكشاف هذه التغييرات في أمن المهارات الذكية؟ شاركونا آراءكم في التعليقات!
