تعتبر عملية تطوير البرمجيات تكرارية بطبيعتها، ولكن تعاني وكالات البرمجة من صعوبات حقيقية خلال هذه العملية. في هذا السياق، قام الباحثون بتقديم SlopCodeBench، وهو معيار يقيس كيفية تدهور أداء وكالات البرمجة على مدى مهام تكرارية طويلة.

تتميز هذه الأداة الجديدة بوجود 36 مشكلة و196 نقطة تفتيش، حيث يتعين على الوكالات توسيع حلولها بمرور الوقت. بالمقارنة مع المعايير السابقة، توفر SlopCodeBench مواصفات متطورة تتطلب اتخاذ قرارات معمارية، مما يرفع من قيمة التقييم ويعطي مرونة أكبر للوكالات.

الكشف الأهم كان في كيف أن جودة الكود تتدهور مع استمرار الوكالات في تطوير حلولها. أظهرت النتائج أن 77% من المسارات أظهرت تدهورًا في التعقيد الهيكلي، بينما واجهت 75.5% من الحالات زيادة في verbosity (الكود الزائد). بالمقارنة مع 473 مستودع برمجي مفتوح المصدر في Python، كانت كودات الوكالات أكثر verbosity بمقدار 2.3 مرة وأكثر تآكلًا بمقدار 2.0 مرة.

هذا البحث يشير إلى أن الوكالات تحقق نقاط تفتيش لكنها تنتج كودًا يتدهور ويعاني من البلوغ في كل خطوة. كما أظهرت التجربة أن توجيه الجودة الصريح يمكن أن يقلل من verbosity والتآكل في البداية بما يصل إلى الثلث، دون التأثير على معدلات التدهور.

باختصار، يوفر SlopCodeBench أول قياسات لتدهور الكود تحت تعديلات تكرارية، وبالتالي يفتح المجال لمناقشات أوسع حول جودة تصميم وكالات البرمجة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!