في عصر الذكاء الاصطناعي، أصبحت الحاجة لتطوير [البرمجيات](/tag/البرمجيات) أكثر تعقيدًا، حيث تتطلب [التحديثات](/tag/التحديثات) الجديدة تنسيقًا مكثفًا [عبر](/tag/عبر) العديد من الملفات. ومع أن [الوكالات البرمجية](/tag/الوكالات-البرمجية) (coding [agents](/tag/agents)) أصبحت أكثر استخدامًا في [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات)) الفعلي، إلا أن [المعايير](/tag/المعايير) الحالية تركز بشكل كبير على [تصحيح الأخطاء](/tag/تصحيح-[الأخطاء](/tag/الأخطاء)) البسيطة، مما يجعل من الصعب [تقييم](/tag/تقييم) عمليات [التطوير](/tag/التطوير) طويلة الأمد.
تقدم [دراسة جديدة](/tag/[دراسة](/tag/دراسة)-جديدة) ما يُعرف باسم RoadmapBench، وهو معيار يتضمن 115 مهمة برمجية تعكس [تحديات](/tag/تحديات) متعلقة بالتحديثات [عبر](/tag/عبر) 17 مستودعًا و5 [لغات](/tag/لغات) [برمجة](/tag/برمجة). يعتمد هذا المعيار على سيناريوهات واقعية، حيث تُوضع [الوكالات البرمجية](/tag/الوكالات-البرمجية) في لحظات معينة من الشيفرة المصدرية وتُقدم لها [توجيهات](/tag/توجيهات) متعددة الأهداف لتنفيذ [الوظائف](/tag/الوظائف) المقدمة في النسخة المستهدفة.
تظهر النتائج المثيرة للاهتمام أن حتى أقوى [النماذج](/tag/النماذج) الحالية، مثل [Claude](/tag/claude)-Opus-4.7، [تحقق](/tag/تحقق) نسبة [نجاح](/tag/نجاح) تبلغ 39.1% فقط في إكمال المهام المعقدة، بينما [النماذج](/tag/النماذج) الأخرى [تحقق](/tag/تحقق) نسبة [نجاح](/tag/نجاح) أقل بكثير تصل إلى 5.2% فقط. مما يبرز أن [تحديات](/tag/تحديات) [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات)) الطويلة الأمد لا تزال تمثل مشكلة كبيرة لم تُحل بعد.
إذا كنت من المهتمين بعالم [الذكاء الاصطناعي](/tag/الذكاء-الاصطناعي) وتطوير البرمجيات، فلا شك أن RoadmapBench سيغير نظرتك عن سبل [تقييم الأداء](/tag/[تقييم](/tag/تقييم)-[الأداء](/tag/الأداء)) في هذا المجال المعقد.
RoadmapBench: ثورة جديدة في تقييم تطوير البرمجيات عبر التحديثات الطويلة الأمد!
يقدم RoadmapBench معيارًا جديدًا لتقييم البرمجة الذكية، حيث يتناول تحديات التطوير طويل الأجل عبر تحديثات حقيقية. تشير النتائج إلى أن هذا المجال لا يزال مليئًا بالتحديات، حتى مع النماذج الأكثر تطورًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
