🏷️ #تقييم
179 مقال
نماذج لغوية
استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي
أركايف للذكاءمنذ 1 شهر
أبحاث
قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية
أركايف للذكاءمنذ 1 شهر
أبحاث
قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز
أركايف للذكاءمنذ 1 شهر
أبحاث
قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة
أركايف للذكاءمنذ 1 شهر
أبحاث
ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!
أركايف للذكاءمنذ 1 شهر
أبحاث
استكشاف OpenEnv: تقييم وكالات الذكاء الاصطناعي في بيئات حقيقية
هاجينج فيسمنذ 3 شهر
أبحاث
التعرّف على معيار RTEB: ثورة جديدة في تقييم استرجاع المعلومات!
هاجينج فيسمنذ 8 شهر
أبحاث
الإعلان عن مسابقة E2LM في NeurIPS 2025: تقييم مبكر لتدريب نماذج اللغات
هاجينج فيسمنذ 11 شهر
أبحاث
PaperBench: ثورة جديدة في تقييم قدرة الذكاء الاصطناعي على استنساخ الأبحاث!
مدونة أوبن إيه آيمنذ 14 شهر
نماذج لغوية
إعادة التفكير في تقييم نماذج اللغات الضخمة مع 3C3H: معايير AraGen واللوحة القيادية
هاجينج فيسمنذ 18 شهر
أدوات
Judge Arena: تجربة مبتكرة لتقييم نماذج الذكاء الاصطناعي
هاجينج فيسمنذ 18 شهر
أبحاث
إطلاق CyberSecEval 2: إطار تقييم شامل لمخاطر الأمن السيبراني وقدرات نماذج اللغة الكبيرة
هاجينج فيسمنذ 24 شهر
نماذج لغوية
خطوة جديدة نحو المستقبل: إطلاق قائمة المتصدرين لنماذج اللغات الكورية (Korean LLM Leaderboard)! 🚀
هاجينج فيسمنذ 27 شهر
أبحاث
استكشاف تحيز نماذج اللغات: كيف يمكن لـ 🤗 Evaluate تحسين العدالة في الذكاء الاصطناعي!
هاجينج فيسمنذ 44 شهر
أبحاث
إطلاق تقييم جديد على المنصة: ماذا يعني هذا لمستخدمي الذكاء الاصطناعي؟
هاجينج فيسمنذ 47 شهر
أبحاث
تقييم نماذج اللغات الضخمة: كيف تقود البرمجة الذكية نحو المستقبل؟
مدونة أوبن إيه آيمنذ 59 شهر
← السابق9 / 9
