في ظل تزايد استخدام وكالات البرمجة كشركاء تطوير تكراريين، يُعد التقييم الفعال لهذه الوكالات أمراً بالغ الأهمية للكثير من المشاريع التقنية. لهذا السبب، تم تقديم EvoCode-Bench، معيار جديد يتيح تقييم 26 مهمة برمجية معزولة مرتبطة بالأداء خلال 227 جولة تقييم مختلفة.

تتميز كل مهمة بأنها تحافظ على بيئة العمل الخاصة بالوكيل من 5 إلى 15 جولة، مما يسمح بتحديد المتطلبات عبر سلوك يمكن ملاحظته، واستخدام اختبارات تنفيذية تراكمية للتحقق من المتطلبات الجديدة بالإضافة إلى اختبار المتطلبات السابقة.

أجرينا تقييمًا لـ 13 وكالة برمجة مستخدمين مقياسين مهمين: MT@4 الذي يُظهر النقاط في المحاولة الرابعة كمقياس لوقف الفشل، وSR الذي يعكس الأداء في جولة واحدة مقارنة بحالة مرجعية مكتملة مسبقًا. وكشفت النتائج أن SR يتفوق على MT@4 بمعدل يتراوح بين 22 إلى 40 نقطة لمعظم الوكالات.

علاوة على ذلك، تغيرت تصنيفات الأداء بين الوكالات بشكل واضح، حيث احتلت وكالة واحدة أعلى درجة SR تقدر بـ 78.9، لكنها جاءت في المركز الثالث فيما يتعلق بأداء التنفيذ المستمر (44.0 MT@4). حتى أقوى الوكالات لم تحقق سوى حوالي 50% من النجاح في المعايير متعددة الأدوار، حيث انخفض معدل النجاح الإجمالي إلى أقل من نصف أداء الجولة الأولى بحلول الجولة الخامسة.

أظهرت تحليل الفشل سلوكاً يعتمد على درجة القوة، حيث تفشل الوكالات الأضعف مبكرًا بينما تنجو الوكالات الأقوى لفترة كافية لتكشف عن مشاكل تتعلق بتتبع المواصفات والفشل في التراجع.

كخلاصة، يوفر EvoCode-Bench بيانات المعيار والبنية التحتية متعددة الأدوار، مما يمثل خطوة نحو تطوير أذكى وأكثر فاعلية لوكالات البرمجة. هل تعتقد أن هذه النقلة ستغير الطريقة التي نتعامل بها مع البرمجة؟ شاركونا آراءكم في التعليقات!