Ailoxa Logo

🏷️ #تقييم

179 مقال

استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي
نماذج لغوية

استكشاف قدرات التفكير المنطقي لنماذج اللغات الضخمة: رؤية عبر بنية تشومسكي

أركايف للذكاءمنذ 1 شهر
قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!
أبحاث

قفزة نوعية في تقييم الأنتولوجيات: WiseOWL ت revolutionize إعادة استخدام البيانات!

أركايف للذكاءمنذ 1 شهر
ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية
نماذج لغوية

ثورة في تقييم نماذج الذكاء الاصطناعي: تقييم دقيق لقدرات النماذج اللغوية

أركايف للذكاءمنذ 1 شهر
قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!
أبحاث

قفزة مذهلة في تقييم جودة التفكير: استكشاف Score المنطق المدعوم!

أركايف للذكاءمنذ 1 شهر
ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز
نماذج لغوية

ثورة في نماذج الرؤية-اللغة: مواجهة التحديات الجديدة وتفكيك الألغاز

أركايف للذكاءمنذ 1 شهر
قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة
أبحاث

قفزة ثورية في تقييم نماذج اللغة الكبيرة: الكشف عن جودة التفكير في مهام البرمجة

أركايف للذكاءمنذ 1 شهر
ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL
أبحاث

ثورة في تقييم الذكاء الاصطناعي: ROSE يقلب المعايير في تحويل اللغة الطبيعية إلى SQL

أركايف للذكاءمنذ 1 شهر
ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!
نماذج لغوية

ثورة في تقييم نماذج اللغة: League of LLMs يسجل قفزة مذهلة!

أركايف للذكاءمنذ 1 شهر
استكشاف OpenEnv: تقييم وكالات الذكاء الاصطناعي في بيئات حقيقية
أبحاث

استكشاف OpenEnv: تقييم وكالات الذكاء الاصطناعي في بيئات حقيقية

هاجينج فيسمنذ 3 شهر
التعرّف على معيار RTEB: ثورة جديدة في تقييم استرجاع المعلومات!
أبحاث

التعرّف على معيار RTEB: ثورة جديدة في تقييم استرجاع المعلومات!

هاجينج فيسمنذ 8 شهر
الإعلان عن مسابقة E2LM في NeurIPS 2025: تقييم مبكر لتدريب نماذج اللغات
أبحاث

الإعلان عن مسابقة E2LM في NeurIPS 2025: تقييم مبكر لتدريب نماذج اللغات

هاجينج فيسمنذ 11 شهر
PaperBench: ثورة جديدة في تقييم قدرة الذكاء الاصطناعي على استنساخ الأبحاث!
أبحاث

PaperBench: ثورة جديدة في تقييم قدرة الذكاء الاصطناعي على استنساخ الأبحاث!

مدونة أوبن إيه آيمنذ 14 شهر
إعادة التفكير في تقييم نماذج اللغات الضخمة مع 3C3H: معايير AraGen واللوحة القيادية
نماذج لغوية

إعادة التفكير في تقييم نماذج اللغات الضخمة مع 3C3H: معايير AraGen واللوحة القيادية

هاجينج فيسمنذ 18 شهر
Judge Arena: تجربة مبتكرة لتقييم نماذج الذكاء الاصطناعي
أدوات

Judge Arena: تجربة مبتكرة لتقييم نماذج الذكاء الاصطناعي

هاجينج فيسمنذ 18 شهر
إطلاق CyberSecEval 2: إطار تقييم شامل لمخاطر الأمن السيبراني وقدرات نماذج اللغة الكبيرة
أبحاث

إطلاق CyberSecEval 2: إطار تقييم شامل لمخاطر الأمن السيبراني وقدرات نماذج اللغة الكبيرة

هاجينج فيسمنذ 24 شهر
خطوة جديدة نحو المستقبل: إطلاق قائمة المتصدرين لنماذج اللغات الكورية (Korean LLM Leaderboard)! 🚀
نماذج لغوية

خطوة جديدة نحو المستقبل: إطلاق قائمة المتصدرين لنماذج اللغات الكورية (Korean LLM Leaderboard)! 🚀

هاجينج فيسمنذ 27 شهر
استكشاف تحيز نماذج اللغات: كيف يمكن لـ 🤗 Evaluate تحسين العدالة في الذكاء الاصطناعي!
أبحاث

استكشاف تحيز نماذج اللغات: كيف يمكن لـ 🤗 Evaluate تحسين العدالة في الذكاء الاصطناعي!

هاجينج فيسمنذ 44 شهر
إطلاق تقييم جديد على المنصة: ماذا يعني هذا لمستخدمي الذكاء الاصطناعي؟
أبحاث

إطلاق تقييم جديد على المنصة: ماذا يعني هذا لمستخدمي الذكاء الاصطناعي؟

هاجينج فيسمنذ 47 شهر
تقييم نماذج اللغات الضخمة: كيف تقود البرمجة الذكية نحو المستقبل؟
أبحاث

تقييم نماذج اللغات الضخمة: كيف تقود البرمجة الذكية نحو المستقبل؟

مدونة أوبن إيه آيمنذ 59 شهر