في عالم [البرمجة](/tag/البرمجة) المتسارع الذي يعيشه اليوم، ومع زيادة الاعتماد على [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLM](/tag/llm))، يصبح من الضروري [تطوير](/tag/تطوير) [معايير تقييم](/tag/[معايير](/tag/معايير)-[تقييم](/tag/تقييم)) فعّالة تعكس قدرات هذه [النماذج](/tag/النماذج) بشكل أدق. هنا يأتي دور ProcBench، المعيار الجديد الذي ينقل [تقييم](/tag/تقييم) [وكالات البرمجة](/tag/[وكالات](/tag/وكالات)-[البرمجة](/tag/البرمجة)) إلى مستوى آخر.

تمتاز معظم [المعايير](/tag/المعايير) الحالية بأنها تركز على [تقييم](/tag/تقييم) النتائج النهائية فقط، وهو ما قد يتسبب في تجاهل العديد من [الأخطاء](/tag/الأخطاء) التي قد تحدث أثناء [تنفيذ](/tag/تنفيذ) الأكواد. ولكن ProcBench يتجاوز ذلك، حيث يقدم نظاماً لتنظيم [الأخطاء](/tag/الأخطاء) المتكررة خلال التنفيذ في شكل [أنطولوجيا](/tag/أنطولوجيا) قابلة لإعادة الاستخدام، تغطي 11 نوعاً من [الأخطاء](/tag/الأخطاء) في 4 فئات مختلفة.

بدلاً من مجرد التركيز على النتائج، يقوم ProcBench بتقييم مسارات الوكالات من خلال أدلة عملية موحدة، مما يمنح مقياساً أكثر [دقة](/tag/دقة) لاستنتاجات التنفيذ. كما قام بإدخال مفهوم حفظ [التحكم](/tag/التحكم) كوسيلة لتقييم جودة عملية التنفيذ، [عبر](/tag/عبر) [قياس](/tag/قياس) مدى بقاء التنفيذ قابلاً للتفسير، والانقطاع، والتصحيح، والعودة إلى حالته السابقة، واستعادة السلطة عند الحاجة.

ليست هذه إلا البداية! فقد تم اختبار ProcBench على 200 حالة تم جمعها من ثلاثة [معايير](/tag/معايير) مختلفة: AndroidBench، TerminalBench، و [SWE-bench](/tag/swe-bench)-Verified. وأظهرت النتائج أن ProcBench يمكن أن يتم تنفيذه بمصداقية مفيدة، حيث يقدم دلالات أكثر ثباتاً مقارنة بالمعايير القديمة، ويظهر اختلافات ملحوظة في جودة التنفيذ غالباً ما تُهمل في [التقييمات](/tag/التقييمات) التقليدية.

هل أنتم مستعدون لاكتشاف كيف يمكن للمعايير الجديدة مثل ProcBench تغيير [مستقبل](/tag/مستقبل) [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات))؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!