في ظل الاعتماد المتزايد على نماذج اللغات الضخمة (Large Language Models) في عمليات مراجعة الشفرات، أثيرت تساؤلات مهمة حول قدرتها على التصدي للهجمات الخبيثة. مع تقديم معيار جديد باسم SEVRA-BENCH، أصبح بإمكاننا قياس مدى فعالية هذه النماذج في مكافحة الهندسة الاجتماعية عند مراجعة الطلبات.

تستند كل طلبية خبيثة تم تضمينها في SEVRA-BENCH إلى تعديلات حقيقية تم تنفيذها في مشاريع سابقة، حيث تم استرجاع الشيفرة الضعيفة من الإصلاحات المسجلة في قاعدة بيانات الثغرات الشائعة (CVE). يتم تقديم كل طلب مشبوه مع إطار اجتماعي يختلف في مزاعمه ومدعوماته وعجالة التنفيذ، مما يزيد من صعوبة اكتشافه.

ضم معيار SEVRA-BENCH 1,062 طلبية خبيثة تم استخراجها من تعديلات مرتبطة بالثغرات الشائعة على مدار السنوات السابقة. من خلال تقييم 8 نماذج حالية تعمل كمراجعي شفرات أوتوماتيكيين، تمكنا من تسليط الضوء على الفجوة الحادة بين النماذج المفتوحة والمغلقة المصدر.

هذا البحث الذي تم طرحه يتطلع إلى أن يكون مرجعاً قيماً لدعم النماذج المفتوحة المصدر، مما يسهم في تقليل هذه الفجوة وسد الثغرات الأمنية المحتملة.