في عالم البرمجيات الحديثة، يعد تقييم وكالات البرمجة (Software Engineering Agents) من الأمور الحيوية التي تؤثر في جودة البرمجيات. قد يبدو أن نجاح الوكيل يتحدد فقط بمدى نجاح التصحيح (Patch) في اجتياز الاختبارات، لكن دراسة جديدة تكشف لنا أن هذا التصور محدود للغاية. عُرضت هذه الدراسة في ورقة بحثية بعنوان "AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation"، والتي تسلط الضوء على كيفية تصنيف ولادة النجاح الفوضوي في تقييم الوكلاء.
يتناول البحث **2,614 مسارًا (Trajectory)** تم تقييمها من ثمانٍ من نماذج الوكلاء على 60 مهمة موثقة في **SWE-bench**. ورغم أن 47 من هذه المهام كانت كافية لتشكيل مراجع على مستوى المهام، فإن ما يقارب 10.7% من المسارات الناجحة أُطلق عليها اسم **Lucky Pass**، حيث تظهر سلوكيات ناجحة ولكن عبر دورات انحدار، محاولات عمياء، أو اكتشافات غير منظمة.
تقدم الدراسة **AgentLens** كإطار عملي يسمح بتقييم عمليات الوكلاء بشكل أكثر دقة، حيث يتم استخدام قاعدة بيانات جديدة تُدعى **AgentLens-Bench** التي تحتوي على 1,815 مسارًا مرجعيًا، موضوعة مع درجات جودة وإشارات على الفاقد ونقاط التباين. كما يقوم AgentLens بدمج عدة حلول ناجحة لنفس المهمة لإنشاء مراجع خاصة.
وبفضل الأداة الجديدة، يتمكن الباحثون والمطورون من فصل المسارات الناجحة إلى ثلاث طبقات: **Lucky، Solid، وIdeal**، مما يمنحهم فهمًا أعمق لآليات النجاح. من المثير للاهتمام أن معدلات Lucky تتفاوت بين نماذج الوكلاء، حيث تتراوح من 0.5% إلى 23.2%. كما يوضح البحث أن بعض النماذج يمكن أن تتغير مواقعها ضمن الترتيب بجانب الجودة الدراسية بدلاً من معدل النجاح فقط.
يمكنكم زيارة الرابط [هنا](https://github.com/microsoft/code-agent-state-trajectories/) لتحميل قاعدة البيانات والمكتبة SDK الخاصة بـ AgentLens، وكذلك للاستفادة من نتائج هذه الأبحاث المثيرة.
اكتشفوا ثغرات تقييم وكلاء البرمجيات مع AgentLens: مشكلة Lucky Pass تكشف المستور!
تقديم AgentLens، إطار جديد يفتح آفاق تقييم أفضل لوكلاء البرمجيات، وكشف مشكلة Lucky Pass التي تتواجد بقوة في عملياتهم. هذا التطور يعد ثورة في طريقة فهم وتقييم أداء وكلاء البرمجة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
