🏷️ #تقييم البرمجيات
4 مقال
أبحاث
دياغيفال: بروتوكول مبتكر لتحسين تقييم البرمجيات التفاعلية باستخدام وكلاء واجهة المستخدم!
أركايف للذكاءمنذ 17 يوم
أبحاث
هل حان الوقت لتغيير المعايير؟ أعيننا على SWE-bench Pro!
مدونة أوبن إيه آيمنذ 3 شهر
أدوات
اكتشفوا BigCodeBench: الجيل الجديد من التقييم البشري للبرمجيات!
هاجينج فيسمنذ 23 شهر
أدوات
اكتشف لائحة الشرف LiveCodeBench: تقييم شامل ونظيف لكود نماذج اللغات الضخمة!
هاجينج فيسمنذ 26 شهر
