مشاركة

→ العودة للرئيسية

SkillVetBench: ثورة في تقييم مخاطر الأمن في مهارات وكلاء LLM مفتوحة المصدر

🔬 أبحاث⏱ 2 دقائق للقراءة👁 0 مشاهدة

SkillVetBench: ثورة في تقييم مخاطر الأمن في مهارات وكلاء LLM مفتوحة المصدر

يقدم مشروع SkillVetBench نظاماً مبتكراً لتقييم مخاطر الأمن في بيئات وكلاء النموذج اللغوي المفتوح المصدر، مما يتيح حماية أفضل ضد التهديدات المعقدة. باستخدام LLM كحكم، يُحدث المشروع نقلة نوعية في كيفية تقييم المهارات المجتمعية.

تسير بيئات وكلاء النموذج اللغوي المفتوح المصدر (Open-Source LLM Agent Ecosystems) في اتجاه سريع نحو النمو، ولكن تظل أمان المهارات المقدمة من قبل المجتمع (Community-Contributed Skills) غير موثقة بشكل كاف. ومن هنا، ينشأ الفجوة التي نعمل على سدها، حيث تركز أدوات الفحص الحالية على مستوى الشيفرة البرمجية وتخفق في التعامل مع خطر التعليمات والتهديدات المتعددة الوكلاء، مثل التوجيهات بلغة طبيعية قادرة على اختراق الوكيل أو تسريب البيانات عبر قنوات جانبية.

نحن هنا لنقدم 여러분 نظام SkillVetBench، والذي يعتبر بمثابة لوح متصدر عام (Public Leaderboard) على منصة Hugging Face يستخدم LLM كحكم لتقييم مهارات الوكلاء.

ما هو الجديد؟

نقدّم مقياس SARS (Skill Agentic Risk Score)، وهو مقياس لخطر تعاونية الروبوتات يتضمن خمسة أبعاد مع صيغة موزونة محكمة مناسبة لأنظمة اتباع التعليمات.

ما الذي تم دمجه؟

تحليل كامل لمتجهات CVSS v4.0 ونظرة ثنائية الاتجاه عبر ClawHub، مما يتيح لنا مقارنة مراجعتنا التي تنتجها LLM مع تقييم السوق الرسمي.

النتائج المثيرة ">النتائج المثيرة

أظهر نظام LLM كحكم معدلات نجاح صفرية في الكشف عن التهديدات بين 78 مهارة خبيثة مؤكدة، وصفر إيجابيات كاذبة بين 22 حالة بناءة، بينما أفضل أداة ثابتة (SKILLSIEVE) لا تزال تواجه إخفاقاً في كشف 15% من المخاطر. بالنسبة للفئات المتعلقة بمستوى التعليمات مثل حقن التعليمات (Prompt Injection) وتسمم الذاكرة (Memory Poisoning)، فإن الأدوات التقليدية تفشل في كشف ما بين 89% و100% من التهديدات.

تتراوح معدلات الكشف بين 35% و95% عبر أربعة مقيمين للـ LLM، مما يبرز الحاجة لتطبيق نظام تصنيف جماعي في النشر.

إن SkillVetBench لا يمثل مجرد تطور آخر في مجال الأمن السيبراني، بل نقطة تحول في كيفية تعاملنا مع المخاطر المتزايدة في عالم الذكاء الاصطناعي. فهل أنتم مستعدون لاستكشاف هذه التغييرات في أمن المهارات الذكية؟ شاركونا آراءكم في التعليقات!

المصدر الأصلي:أركايف للذكاء

زيارة المصدر الأصلي ←

# SkillVetBench # أمان # ذكاء اصطناعي # تقييم المخاطر # LLM # مهارات وكلاء الذكاء الاصطناعي

جاري تحميل التفاعلات...

شارك الخبر مع أصدقائك

مشاركة:

📰أخبار قد تهمك

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!

ثورة ذكاء اصطناعي: المساعد الجديد من أدوبي يمكنه إنجاز المهام عبر جميع تطبيقاتك الإبداعية!

تيك كرانشمنذ 3 شهر

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

ثورة جديدة في عالم الحوسبة: استثمار ضخم ينذر بإطلاق عملاق الحوسبة التالي

تيك كرانشمنذ 3 شهر

هل تتجه أنظار المستثمرين نحو Anthropic بعد موجة الدولار؟

هل تتجه أنظار المستثمرين نحو Anthropic بعد موجة الدولار؟

تيك كرانشمنذ 3 شهر