🏷️ #معايير جديدة
15 مقال
أبحاث
SkillSafetyBench: تقييم أمان الوكلاء في مواجهة هجمات المهارات!
أركايف للذكاءمنذ 8 يوم
أبحاث
تعزيز نماذج البرمجة الرياضية: كيف يمكن لمعايير محسّنة تغيير قواعد اللعبة؟
أركايف للذكاءمنذ 9 يوم
أبحاث
اكتشاف الحدود الجديدة: INDUCTION في دمج المفاهيم المنطقية ذات الهيكل المحدود
أركايف للذكاءمنذ 10 يوم
أبحاث
AgentAtlas: ثورة معايير تقييم وكالات نماذج اللغة الكبيرة
أركايف للذكاءمنذ 14 يوم
أبحاث
ثورة في تحرير الصور: DLEBench يقيم قدرة نماذج الذكاء الاصطناعي على تعديل الكائنات الصغيرة!
أركايف للذكاءمنذ 16 يوم
أبحاث
SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي
أركايف للذكاءمنذ 17 يوم
أبحاث
معيار جديد لاكتشاف مرض باركنسون المبكر من خلال الكلام: خطوة نحو تشخيص أفضل!
أركايف للذكاءمنذ 21 يوم
أبحاث
ابتكار جديد في تقييم إزالة الأجسام من الصور: PROVE يحسن الدقة الإدراكية
أركايف للذكاءمنذ 21 يوم
أبحاث
BEAVER: معيار جديد لإحداث ثورة في تحويل النصوص إلى استعلامات SQL
أركايف للذكاءمنذ 22 يوم
أبحاث
LitVISTA: معيار جديد لفهم السرد الأدبي وتنسيق النصوص
أركايف للذكاءمنذ 29 يوم
أبحاث
اختبار Vibe Code Bench: تقييم نماذج الذكاء الاصطناعي في تطوير تطبيقات الويب بشكل شامل!
أركايف للذكاءمنذ 29 يوم
أبحاث
فجوة الامتثال: لماذا تتعهد أنظمة الذكاء الاصطناعي باتباع التعليمات لكنها تخالفها؟
أركايف للذكاءمنذ 1 شهر
أبحاث
اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة
أركايف للذكاءمنذ 1 شهر
أبحاث
ReXSonoVQA: معايير جديدة لفهم الموجات فوق الصوتية بأسلوب ديناميكي!
أركايف للذكاءمنذ 1 شهر
أبحاث
تعلم بسرعة: معيار جديد في التعميم في التعلم المعزز!
مدونة أوبن إيه آيمنذ 99 شهر
