في عالم [البرمجة](/tag/البرمجة) المتسارع الذي يعيشه اليوم، ومع زيادة الاعتماد على [نماذج [اللغات](/tag/اللغات) الضخمة](/tag/[نماذج](/tag/نماذج)-[اللغات](/tag/اللغات)-الضخمة) ([LLM](/tag/llm))، يصبح من الضروري [تطوير](/tag/تطوير) [معايير تقييم](/tag/[معايير](/tag/معايير)-[تقييم](/tag/تقييم)) فعّالة تعكس قدرات هذه [النماذج](/tag/النماذج) بشكل أدق. هنا يأتي دور ProcBench، المعيار الجديد الذي ينقل [تقييم](/tag/تقييم) [وكالات البرمجة](/tag/[وكالات](/tag/وكالات)-[البرمجة](/tag/البرمجة)) إلى مستوى آخر.
تمتاز معظم [المعايير](/tag/المعايير) الحالية بأنها تركز على [تقييم](/tag/تقييم) النتائج النهائية فقط، وهو ما قد يتسبب في تجاهل العديد من [الأخطاء](/tag/الأخطاء) التي قد تحدث أثناء [تنفيذ](/tag/تنفيذ) الأكواد. ولكن ProcBench يتجاوز ذلك، حيث يقدم نظاماً لتنظيم [الأخطاء](/tag/الأخطاء) المتكررة خلال التنفيذ في شكل [أنطولوجيا](/tag/أنطولوجيا) قابلة لإعادة الاستخدام، تغطي 11 نوعاً من [الأخطاء](/tag/الأخطاء) في 4 فئات مختلفة.
بدلاً من مجرد التركيز على النتائج، يقوم ProcBench بتقييم مسارات الوكالات من خلال أدلة عملية موحدة، مما يمنح مقياساً أكثر [دقة](/tag/دقة) لاستنتاجات التنفيذ. كما قام بإدخال مفهوم حفظ [التحكم](/tag/التحكم) كوسيلة لتقييم جودة عملية التنفيذ، [عبر](/tag/عبر) [قياس](/tag/قياس) مدى بقاء التنفيذ قابلاً للتفسير، والانقطاع، والتصحيح، والعودة إلى حالته السابقة، واستعادة السلطة عند الحاجة.
ليست هذه إلا البداية! فقد تم اختبار ProcBench على 200 حالة تم جمعها من ثلاثة [معايير](/tag/معايير) مختلفة: AndroidBench، TerminalBench، و [SWE-bench](/tag/swe-bench)-Verified. وأظهرت النتائج أن ProcBench يمكن أن يتم تنفيذه بمصداقية مفيدة، حيث يقدم دلالات أكثر ثباتاً مقارنة بالمعايير القديمة، ويظهر اختلافات ملحوظة في جودة التنفيذ غالباً ما تُهمل في [التقييمات](/tag/التقييمات) التقليدية.
هل أنتم مستعدون لاكتشاف كيف يمكن للمعايير الجديدة مثل ProcBench تغيير [مستقبل](/tag/مستقبل) [تطوير البرمجيات](/tag/[تطوير](/tag/تطوير)-[البرمجيات](/tag/البرمجيات))؟ شاركونا آرائكم في [التعليقات](/tag/التعليقات)!
ثورة في تقييم وكالات البرمجة: اكتشفوا ProcBench وما يحمله من ابتكار!
يقدم ProcBench معياراً جديداً لتقييم وكالات البرمجة المعتمدة على نماذج اللغات الضخمة (LLM). هذا المنهج لا يقيم فقط النتائج النهائية، بل يسرد أنواع الأخطاء خلال عملية التنفيذ بطريقة مبتكرة وموحدة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
