في عالم البرمجة المتسارعة، يزداد الاعتماد على وكلاء البرمجة الذين تعتمد كفاءتهم على نماذج اللغات الضخمة (Large Language Models) في القيام بمهام صيانة البرمجيات. ومع ذلك، كانت التقييمات الموجودة تفتقر إلى معالجة الصيانة المستمرة بشكل واقعي، مما يجعل حلقات الترقيات البرمجية تمر دون تسليط الضوء عليها. هنا تبرز SWE-Chain كمعيار ثوري لتقييم أداء هؤلاء الوكلاء.

تقدم SWE-Chain نهجاً جديداً يركز على ترقيات الحزم البرمجية على مستوى الإصدار، حيث يتم بناء كل انتقال على قاعدة الشيفرة السابقة للوكيل. يتطلب هذا الأسلوب دقة عالية في تحديد متطلبات الترقية، وهو ما تم تطويره عبر استخدام خط أنابيب تركيب قائم على تقسيم وتحليل الملاحظات مع تغيرات الشيفرة لتعزيز دقة النتائج.

تشمل SWE-Chain 12 سلسلة من ترقيات حزم حقيقية مكتوبة بلغة بايثون، حيث يتعين على الوكلاء التعامل مع 155 انتقال إصدار و1,660 متطلب ترقية مبني على تغييرات فعلية في الكود. في تقييم تسعة من نماذج الوكلاء، حقق الوكلاء نسبة نجاح بلغت 44.8% في حل المشكلات، مع دقة تصل إلى 65.4% ونتيجة F1 عند 50.2%، حيث برع نموذج Claude-Opus-4.7 (Claude Code) بتحقيق 60.8% في حل القضايا.

تسلط النتائج الضوء على أن SWE-Chain ليس فقط معيارًا قابلاً للتطبيق، بل أيضًا معيار تفريقي يكشف التحديات التي لا تزال تواجه الوكلاء في تحقيق التحديثات الصحيحة عبر ترقيات الحزم المرتبطة دون كسر التكامل الوظيفي.

يدعو SWE-Chain كل المطورين والعاملين في مجال البرمجة لاستكشاف تقنيات جديدة لتحسين جودة صيانة البرمجيات. كيف ترى تأثيرات هذه المعايير على مستقبل تطوير البرمجيات؟ شاركونا آراءكم.