🏷️ #تقييم الأداء
98 مقال
أبحاث
مستقبل الذكاء الاصطناعي في المنازل الذكية: تقييم أداء الأنظمة الشخصي عبر PersonalHomeBench!
أركايف للذكاءمنذ 1 شهر
أبحاث
اختراقات جديدة في عالم الذكاء الاصطناعي: تقييم نماذج اللغة الكبيرة عبر شبكات البيانات!
أركايف للذكاءمنذ 1 شهر
أبحاث
هل تحتل نماذج اللغات الضخمة (LLMs) زمام المبادرة في حل المشكلات المنطقية؟ كفاءة صياغة الاستدلالات أم مجرد خدع؟
أركايف للذكاءمنذ 1 شهر
أبحاث
إطلالة جديدة على تقييم استرجاع المعلومات: إطار RARE يواجه التحديات الحقيقية!
أركايف للذكاءمنذ 1 شهر
أبحاث
فحص الأداء المالي: منصة جديدة لتقييم نماذج الذكاء الاصطناعي في الهند
أركايف للذكاءمنذ 1 شهر
أبحاث
إطلاق XpertBench: معيار جديد لتقييم الذكاء الاصطناعي بمستوى الخبراء!
أركايف للذكاءمنذ 1 شهر
أبحاث
اكتشاف الأبطال: كيف تحدد أفضل وكيل للألعاب العامة بكفاءة مذهلة!
أركايف للذكاءمنذ 1 شهر
أبحاث
GTA-2: ثورة في تقييم وكلاء الأدوات العامة نحو تحقيق كفاءة غير مسبوقة
أركايف للذكاءمنذ 1 شهر
أبحاث
إعادة تعريف العدالة: تقييم شامل لنماذج اللغات الضخمة في فهم النصوص القانونية الفيتنامية
أركايف للذكاءمنذ 1 شهر
أبحاث
سباق الوكلاء الرائع: تقدمات متقدمة وأخطاء في التنقل!
أركايف للذكاءمنذ 1 شهر
أبحاث
اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة
أركايف للذكاءمنذ 1 شهر
أبحاث
ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
RoboLab: نقلة نوعية في محاكاة الروبوتات وتحليل السياسات العامة
أركايف للذكاءمنذ 1 شهر
أبحاث
قفزة مذهلة في الذكاء الاصطناعي: معيار Frontier-Eng لتقييم الوكلاء الذاتيين في مهام هندسية حقيقية!
أركايف للذكاءمنذ 1 شهر
👁 1أبحاث
تحقيق إنجازات اقتصادية: OpenAI تطلق GDPval لتقييم أداء النماذج في المهام الحقيقية!
مدونة أوبن إيه آيمنذ 8 شهر
أبحاث
اكتشاف أخطاء GPT-4 بواسطة GPT-4: ثورة في تقييم الأداء!
مدونة أوبن إيه آيمنذ 23 شهر
نماذج لغوية
النماذج اللغوية الضخمة: كيف نقيم قوتها ونجاحها؟
هاجينج فيسمنذ 44 شهر
أبحاث
اكتشفوا Procgen Benchmark: ثورة في قياس مهارات الذكاء الاصطناعي!
مدونة أوبن إيه آيمنذ 79 شهر
← السابق5 / 5
