في عالم البرمجيات المتسع، تعد أساليب التقييم أحد أهم عوامل ضمان الجودة. ومع ذلك، أظهرت دراستنا أن SWE-bench Verified يعاني من تلوث متزايد ويقيس بشكل غير دقيق تقدم البرمجة المتطورة.

تضمنت التحليلات الميدانية اكتشافات حول اختبارات معيبة ونقص في دقة البيانات، حيث تم تسريب معلومات التدريب بشكل فاضح مما أثر سلباً على النتائج.

بناءً على هذه النتائج، نوصي بالتحول إلى SWE-bench Pro، والذي يعد خياراً أكثر موثوقية لأي مطور يرغب في قياس مهاراته بدقة. من خلال تبني معايير جديدة ودقيقة، يمكن لمجتمع البرمجيات التحرك نحو تحقيق تقدم حقيقي.

هل تشعر أن الوقت قد حان لتجديد أساليب التقييم؟ ما هي وجهة نظرك؟ شاركنا أفكارك في التعليقات.