في عالم البرمجيات، يعد فهم كيفية عمل البرامج وإصلاح الأخطاء بها أمراً بالغ الأهمية. وقد أطلقت دراسة جديدة تحت اسم CrackMeBench، وهي معيار مبتكر يهدف إلى تقييم قدرة نماذج الذكاء الاصطناعي، مثل GPT-5.5 وClaude Opus 4.7، في مهمة الهندسة العكسية (Reverse Engineering).

تتسم CrackMeBench بتركيزها على مشاكل التحقق الثابتة في البرمجيات، حيث تتطلب من النماذج استعادة منطق التحقق من خلال ملف تنفيذي فقط، مما يشمل أدوات خاصة وإمكانية الوصول إلى نقاط البيانات المحلية. هذا يجعل المعيار مفيداً من الناحية التعليمية، مما يوفر بيئة اختبارية تفاعلية لنماذج الذكاء الاصطناعي.

تم بناء المعيار من ثمانية مهام طبية معروفة واثني عشر مهمة أهداف مُنشأة من قوالب لغات البرمجة مثل C وRust وGo. تم إجراء التجارب في بيئة آمنة باستخدام Docker، حيث أظهرت النتائج تفوق نموذج GPT-5.5 الذي حقق نسبة نجاح بلغت 92% في تحديد الحلول الصحيحة، في مقابل نتيجة أقل لنماذج أخرى مثل Claude Opus وKimi K2.

هذه التجارب لا تقيس فقط نتائج النجاح، بل تسجل أيضاً أوقات التنفيذ، وأنماط الأوامر المستخدمة، وهو ما يوفر رؤى عميقة حول كيفية تقدم النماذج من تحليل كود المصدر إلى تحليل البرمجيات العكسية بشكل مستقل. يمثل CrackMeBench خطوة مهمة نحو تحسين تقنيات الأمان السيبراني وتحليل البرمجيات، مما يجعلنا نتساءل: إلى أين ستقودنا هذه الابتكارات في المستقبل؟