في عالم الأمن السيبراني، يُعتبر الاستغلال عملية معقدة تتجاوز كونها مجرد حدث ثنائي يتضمن نجاحًا أو فشلًا. فبدلاً من ذلك، هي عبارة عن سلم من القدرات التدريجية التي تتراوح من تنفيذ سطر من التعليمات البرمجية الخاطئ إلى السيطرة الكاملة على الهدف. ومع ذلك، فإن المقاييس الأمنية الحالية لنماذج اللغات الضخمة (Large Language Models) تتعامل مع الحوادث ببساطة على أنها نجاح في الاستغلال.
لذلك، نقدم لكم ExploitBench، مقياسًا مبتكرًا يساهم في تحليل الاستغلال من خلال 16 علامة قابلة للقياس. تشمل هذه العلامات تغطية الثغرات، والتسبب في الأعطال، واستخدام برمجيات الصناديق الرملية، وعمليات القراءة/الكتابة العشوائية، وقيام بتحويل التحكم، وتنفيذ التعليمات البرمجية بصورة عشوائية. يتم التحقق من كل قدرة عبر Oracle حتمي يستخدم تحديات عشوائية قابلة للتحديد لتقييم التقدم المحرز.
تطبيق ExploitBench على 41 عطلًا في V8 (محرك JavaScript) يعطينا نتائج مثيرة للاهتمام. لقد أظهرت النتائج وجود تباين واضح بين النماذج العامة المثبتة والنماذج الخاصة. فقد واجهت جميع النماذج العامة الثمانية مشكلة الوصول إلى التعليمات البرمجية الضعيفة والتسبب في الأعطال على نحوٍ اعتيادي، بينما النماذج الخاصة أظهرت إمكانية تنفيذ التعليمات البرمجية العشوائية بنسبة تصل إلى 50%.
تؤكد هذه النتائج أن بناء استغلال ضد الأهداف القوية يعد خطوة هامة ضمن القدرات الناشئة في مجال الأمن السيبراني.
ما رأيكم في هذا التطور في تقنيات الأمن السيبراني؟ شاركونا آراءكم في التعليقات!
إطلاق ExploitBench: مقياس جديد لأداء وكلاء الأمن السيبراني في نموذج اللغات الضخمة
تقدم ExploitBench مقياسًا مبتكرًا لتقييم قدرات استغلال الثغرات في نماذج اللغات الضخمة (LLMs)، من خلال تحليل مكونات الاستغلال المعقدة. يعد هذا التطور خطوة هامة نحو تعزيز الأمن السيبراني وفهم التهديدات بشكل أفضل.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
