اكتشفوا ثغرات تقييم وكلاء البرمجيات مع AgentLens: مشكلة Lucky Pass تكشف المستور!

Q: ما هو موضوع مقال "اكتشفوا ثغرات تقييم وكلاء البرمجيات مع AgentLens: مشكلة Lucky Pass تكشف المستور!"؟

يتناول المقال بالتفصيل والتحليل آخر الأخبار والتطورات المتعلقة بـ "اكتشفوا ثغرات تقييم وكلاء البرمجيات مع AgentLens: مشكلة Lucky Pass تكشف المستور!" في عالم الذكاء الاصطناعي والتكنولوجيا الناشئة.

في عالم البرمجيات الحديثة، يعد تقييم وكالات البرمجة (Software Engineering Agents) من الأمور الحيوية التي تؤثر في جودة البرمجيات. قد يبدو أن نجاح الوكيل يتحدد فقط بمدى نجاح التصحيح (Patch) في اجتياز الاختبارات، لكن دراسة جديدة تكشف لنا أن هذا التصور محدود للغاية. عُرضت هذه الدراسة في ورقة بحثية بعنوان "AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation"، والتي تسلط الضوء على كيفية تصنيف ولادة النجاح الفوضوي في تقييم الوكلاء.

يتناول البحث **2,614 مسارًا (Trajectory)** تم تقييمها من ثمانٍ من نماذج الوكلاء على 60 مهمة موثقة في **SWE-bench**. ورغم أن 47 من هذه المهام كانت كافية لتشكيل مراجع على مستوى المهام، فإن ما يقارب 10.7% من المسارات الناجحة أُطلق عليها اسم **Lucky Pass**، حيث تظهر سلوكيات ناجحة ولكن عبر دورات انحدار، محاولات عمياء، أو اكتشافات غير منظمة.

تقدم الدراسة **AgentLens** كإطار عملي يسمح بتقييم عمليات الوكلاء بشكل أكثر دقة، حيث يتم استخدام قاعدة بيانات جديدة تُدعى **AgentLens-Bench** التي تحتوي على 1,815 مسارًا مرجعيًا، موضوعة مع درجات جودة وإشارات على الفاقد ونقاط التباين. كما يقوم AgentLens بدمج عدة حلول ناجحة لنفس المهمة لإنشاء مراجع خاصة.

وبفضل الأداة الجديدة، يتمكن الباحثون والمطورون من فصل المسارات الناجحة إلى ثلاث طبقات: **Lucky، Solid، وIdeal**، مما يمنحهم فهمًا أعمق لآليات النجاح. من المثير للاهتمام أن معدلات Lucky تتفاوت بين نماذج الوكلاء، حيث تتراوح من 0.5% إلى 23.2%. كما يوضح البحث أن بعض النماذج يمكن أن تتغير مواقعها ضمن الترتيب بجانب الجودة الدراسية بدلاً من معدل النجاح فقط.

يمكنكم زيارة الرابط هنا لتحميل قاعدة البيانات والمكتبة SDK الخاصة بـ AgentLens، وكذلك للاستفادة من نتائج هذه الأبحاث المثيرة.

اكتشفوا ثغرات تقييم وكلاء البرمجيات مع AgentLens: مشكلة Lucky Pass تكشف المستور!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

جوجل تضيف مهارات الذكاء الاصطناعي إلى كروم: احتفظ بتجاربك المفضلة بذكاء!

ثورة جديدة في تجربة المستخدم: تطبيق جيميناي الأصلي لمستخدمي الماك!

قفزة مذهلة: شركة Allbirds تتحول نحو الذكاء الاصطناعي بعد بيع أعمالها في صناعة الأحذية!