في عصر الذكاء الاصطناعي، أصبحت الحاجة لتطوير البرمجيات أكثر تعقيدًا، حيث تتطلب التحديثات الجديدة تنسيقًا مكثفًا عبر العديد من الملفات. ومع أن الوكالات البرمجية (coding agents) أصبحت أكثر استخدامًا في تطوير البرمجيات الفعلي، إلا أن المعايير الحالية تركز بشكل كبير على تصحيح الأخطاء البسيطة، مما يجعل من الصعب تقييم عمليات التطوير طويلة الأمد.

تقدم دراسة جديدة ما يُعرف باسم RoadmapBench، وهو معيار يتضمن 115 مهمة برمجية تعكس تحديات متعلقة بالتحديثات عبر 17 مستودعًا و5 لغات برمجة. يعتمد هذا المعيار على سيناريوهات واقعية، حيث تُوضع الوكالات البرمجية في لحظات معينة من الشيفرة المصدرية وتُقدم لها توجيهات متعددة الأهداف لتنفيذ الوظائف المقدمة في النسخة المستهدفة.

تظهر النتائج المثيرة للاهتمام أن حتى أقوى النماذج الحالية، مثل Claude-Opus-4.7، تحقق نسبة نجاح تبلغ 39.1% فقط في إكمال المهام المعقدة، بينما النماذج الأخرى تحقق نسبة نجاح أقل بكثير تصل إلى 5.2% فقط. مما يبرز أن تحديات تطوير البرمجيات الطويلة الأمد لا تزال تمثل مشكلة كبيرة لم تُحل بعد.

إذا كنت من المهتمين بعالم الذكاء الاصطناعي وتطوير البرمجيات، فلا شك أن RoadmapBench سيغير نظرتك عن سبل تقييم الأداء في هذا المجال المعقد.