في عصر الذكاء الاصطناعي، أصبحت الحاجة لتطوير [البرمجيات](/tag/البرمجيات) أكثر تعقيدًا، حيث تتطلب [التحديثات](/tag/التحديثات) الجديدة تنسيقًا مكثفًا [عبر](/tag/عبر) العديد من الملفات. ومع أن [الوكالات البرمجية](/tag/الوكالات-البرمجية) (coding [agents](/tag/agents)) أصبحت أكثر استخدامًا في [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات)) الفعلي، إلا أن [المعايير](/tag/المعايير) الحالية تركز بشكل كبير على [تصحيح الأخطاء](/tag/تصحيح-[الأخطاء](/tag/الأخطاء)) البسيطة، مما يجعل من الصعب [تقييم](/tag/تقييم) عمليات [التطوير](/tag/التطوير) طويلة الأمد.

تقدم [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) ما يُعرف باسم RoadmapBench، وهو معيار يتضمن 115 مهمة برمجية تعكس [تحديات](/tag/تحديات) متعلقة بالتحديثات [عبر](/tag/عبر) 17 مستودعًا و5 [لغات](/tag/لغات) [برمجة](/tag/برمجة). يعتمد هذا المعيار على سيناريوهات واقعية، حيث تُوضع [الوكالات البرمجية](/tag/الوكالات-البرمجية) في لحظات معينة من الشيفرة المصدرية وتُقدم لها [توجيهات](/tag/توجيهات) متعددة الأهداف لتنفيذ [الوظائف](/tag/الوظائف) المقدمة في النسخة المستهدفة.

تظهر النتائج المثيرة للاهتمام أن حتى أقوى [النماذج](/tag/النماذج) الحالية، مثل [Claude](/tag/claude)-Opus-4.7، [تحقق](/tag/تحقق) نسبة [نجاح](/tag/نجاح) تبلغ 39.1% فقط في إكمال المهام المعقدة، بينما [النماذج](/tag/النماذج) الأخرى [تحقق](/tag/تحقق) نسبة [نجاح](/tag/نجاح) أقل بكثير تصل إلى 5.2% فقط. مما يبرز أن [تحديات](/tag/تحديات) [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات)) الطويلة الأمد لا تزال تمثل مشكلة كبيرة لم تُحل بعد.

إذا كنت من المهتمين بعالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتطوير البرمجيات، فلا شك أن RoadmapBench سيغير نظرتك عن سبل [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) في هذا المجال المعقد.