في عصر الذكاء الاصطناعي، أصبحت الحاجة لتطوير البرمجيات أكثر تعقيدًا، حيث تتطلب التحديثات الجديدة تنسيقًا مكثفًا عبر العديد من الملفات. ومع أن الوكالات البرمجية (coding agents) أصبحت أكثر استخدامًا في تطوير البرمجيات الفعلي، إلا أن المعايير الحالية تركز بشكل كبير على تصحيح الأخطاء البسيطة، مما يجعل من الصعب تقييم عمليات التطوير طويلة الأمد.
تقدم دراسة جديدة ما يُعرف باسم RoadmapBench، وهو معيار يتضمن 115 مهمة برمجية تعكس تحديات متعلقة بالتحديثات عبر 17 مستودعًا و5 لغات برمجة. يعتمد هذا المعيار على سيناريوهات واقعية، حيث تُوضع الوكالات البرمجية في لحظات معينة من الشيفرة المصدرية وتُقدم لها توجيهات متعددة الأهداف لتنفيذ الوظائف المقدمة في النسخة المستهدفة.
تظهر النتائج المثيرة للاهتمام أن حتى أقوى النماذج الحالية، مثل Claude-Opus-4.7، تحقق نسبة نجاح تبلغ 39.1% فقط في إكمال المهام المعقدة، بينما النماذج الأخرى تحقق نسبة نجاح أقل بكثير تصل إلى 5.2% فقط. مما يبرز أن تحديات تطوير البرمجيات الطويلة الأمد لا تزال تمثل مشكلة كبيرة لم تُحل بعد.
إذا كنت من المهتمين بعالم الذكاء الاصطناعي وتطوير البرمجيات، فلا شك أن RoadmapBench سيغير نظرتك عن سبل تقييم الأداء في هذا المجال المعقد.
RoadmapBench: ثورة جديدة في تقييم تطوير البرمجيات عبر التحديثات الطويلة الأمد!
يقدم RoadmapBench معيارًا جديدًا لتقييم البرمجة الذكية، حيث يتناول تحديات التطوير طويل الأجل عبر تحديثات حقيقية. تشير النتائج إلى أن هذا المجال لا يزال مليئًا بالتحديات، حتى مع النماذج الأكثر تطورًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
