Ailoxa Logo

🏷️ #تقييم الأداء

98 مقال

مستقبل الذكاء الاصطناعي في المنازل الذكية: تقييم أداء الأنظمة الشخصي عبر PersonalHomeBench!
أبحاث

مستقبل الذكاء الاصطناعي في المنازل الذكية: تقييم أداء الأنظمة الشخصي عبر PersonalHomeBench!

أركايف للذكاءمنذ 1 شهر
اختراقات جديدة في عالم الذكاء الاصطناعي: تقييم نماذج اللغة الكبيرة عبر شبكات البيانات!
أبحاث

اختراقات جديدة في عالم الذكاء الاصطناعي: تقييم نماذج اللغة الكبيرة عبر شبكات البيانات!

أركايف للذكاءمنذ 1 شهر
هل تحتل نماذج اللغات الضخمة (LLMs) زمام المبادرة في حل المشكلات المنطقية؟ كفاءة صياغة الاستدلالات أم مجرد خدع؟
أبحاث

هل تحتل نماذج اللغات الضخمة (LLMs) زمام المبادرة في حل المشكلات المنطقية؟ كفاءة صياغة الاستدلالات أم مجرد خدع؟

أركايف للذكاءمنذ 1 شهر
إطلالة جديدة على تقييم استرجاع المعلومات: إطار RARE يواجه التحديات الحقيقية!
أبحاث

إطلالة جديدة على تقييم استرجاع المعلومات: إطار RARE يواجه التحديات الحقيقية!

أركايف للذكاءمنذ 1 شهر
فحص الأداء المالي: منصة جديدة لتقييم نماذج الذكاء الاصطناعي في الهند
أبحاث

فحص الأداء المالي: منصة جديدة لتقييم نماذج الذكاء الاصطناعي في الهند

أركايف للذكاءمنذ 1 شهر
إطلاق XpertBench: معيار جديد لتقييم الذكاء الاصطناعي بمستوى الخبراء!
أبحاث

إطلاق XpertBench: معيار جديد لتقييم الذكاء الاصطناعي بمستوى الخبراء!

أركايف للذكاءمنذ 1 شهر
اكتشاف الأبطال: كيف تحدد أفضل وكيل للألعاب العامة بكفاءة مذهلة!
أبحاث

اكتشاف الأبطال: كيف تحدد أفضل وكيل للألعاب العامة بكفاءة مذهلة!

أركايف للذكاءمنذ 1 شهر
GTA-2: ثورة في تقييم وكلاء الأدوات العامة نحو تحقيق كفاءة غير مسبوقة
أبحاث

GTA-2: ثورة في تقييم وكلاء الأدوات العامة نحو تحقيق كفاءة غير مسبوقة

أركايف للذكاءمنذ 1 شهر
إعادة تعريف العدالة: تقييم شامل لنماذج اللغات الضخمة في فهم النصوص القانونية الفيتنامية
أبحاث

إعادة تعريف العدالة: تقييم شامل لنماذج اللغات الضخمة في فهم النصوص القانونية الفيتنامية

أركايف للذكاءمنذ 1 شهر
سباق الوكلاء الرائع: تقدمات متقدمة وأخطاء في التنقل!
أبحاث

سباق الوكلاء الرائع: تقدمات متقدمة وأخطاء في التنقل!

أركايف للذكاءمنذ 1 شهر
اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة
أبحاث

اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة

أركايف للذكاءمنذ 1 شهر
ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!
أبحاث

ثورة الذكاء الاصطناعي: معيار جديد لتقييم الأعمال الحقلية بفضل FieldWorkArena!

أركايف للذكاءمنذ 1 شهر
RoboLab: نقلة نوعية في محاكاة الروبوتات وتحليل السياسات العامة
نماذج لغوية

RoboLab: نقلة نوعية في محاكاة الروبوتات وتحليل السياسات العامة

أركايف للذكاءمنذ 1 شهر
قفزة مذهلة في الذكاء الاصطناعي: معيار Frontier-Eng لتقييم الوكلاء الذاتيين في مهام هندسية حقيقية!
أبحاث

قفزة مذهلة في الذكاء الاصطناعي: معيار Frontier-Eng لتقييم الوكلاء الذاتيين في مهام هندسية حقيقية!

أركايف للذكاءمنذ 1 شهر
👁 1
تحقيق إنجازات اقتصادية: OpenAI تطلق GDPval لتقييم أداء النماذج في المهام الحقيقية!
أبحاث

تحقيق إنجازات اقتصادية: OpenAI تطلق GDPval لتقييم أداء النماذج في المهام الحقيقية!

مدونة أوبن إيه آيمنذ 8 شهر
اكتشاف أخطاء GPT-4 بواسطة GPT-4: ثورة في تقييم الأداء!
أبحاث

اكتشاف أخطاء GPT-4 بواسطة GPT-4: ثورة في تقييم الأداء!

مدونة أوبن إيه آيمنذ 23 شهر
النماذج اللغوية الضخمة: كيف نقيم قوتها ونجاحها؟
نماذج لغوية

النماذج اللغوية الضخمة: كيف نقيم قوتها ونجاحها؟

هاجينج فيسمنذ 44 شهر
اكتشفوا Procgen Benchmark: ثورة في قياس مهارات الذكاء الاصطناعي!
أبحاث

اكتشفوا Procgen Benchmark: ثورة في قياس مهارات الذكاء الاصطناعي!

مدونة أوبن إيه آيمنذ 79 شهر