في عصر تتزايد فيه استخدامات الذكاء الاصطناعي في تطوير البرمجيات، أصبح من الضروري تأمين الكود الذي ينتجه هؤلاء الوكلاء. خبراء البرمجيات يواجهون تحديات كبيرة تتعلق بالأمان، خاصةً مع وجود خطر إدخال ثغرات في الكود نتيجة لتدخل المطورين البشر.

لذلك، تم تقديم معيار جديد يدعى SecureVibeBench، الذي يتضمن 105 مهمة برمجة آمنة بلغة C/C++ مستمدة من 41 مشروعاً في OSS-Fuzz. هذا المعيار يتميز بعدة جوانب، منها:

(i) إعدادات مهام واقعية تتطلب تعديلات متعددة الملفات في مستودعات كبيرة.
(ii) سياقات متوافقة مستندة إلى ثغرات حقيقية في البرمجيات المفتوحة المصدر مع تحديد دقيق لنقاط إدخال الثغرات.
(iii) تقييم شامل يجمع بين اختبار الأداء وفحص الأمان، باستخدام كل من الأوراق الثابتة والديناميكية.

أجرينا تقييمًا على 5 وكلاء برمجة مشهورين مثل OpenHands، بدعم من 5 نماذج لغوية ضخمة (Large Language Models) كـ Claude sonnet 4.5. النتائج بينت أن الوكلاء الحاليين يواجهون صعوبة في توليد كود صحيح وآمن، حيث حقق أفضلهم فقط 23.8% من الحلول الصحيحة والآمنة.

إن SecureVibeBench يمثل خطوة هامة نحو فهم أكبر لتحديات الأمان في البرمجة مع الذكاء الاصطناعي، ويستطيع العملاء والمطورون الاستفادة من هذا المعيار لتقليل مخاطر الثغرات الأمنية في التطبيقات المستقبلية.