🏷️ #التقييم

65 مقال

الذكاء الاصطناعي المتجسد: ثورة في بناء المعايير وآفاق مستقبلية مشوقة!

الذكاء الاصطناعي المتجسد: ثورة في بناء المعايير وآفاق مستقبلية مشوقة!

أركايف للذكاءمنذ 1 شهر

تعرف على $ au$-Rec: معيار موثوق لأنظمة التوصية الذكية!

تعرف على $ au$-Rec: معيار موثوق لأنظمة التوصية الذكية!

أركايف للذكاءمنذ 1 شهر

هل تستطيع نماذج اللغة الرؤية (VLMs) التفكير مثل المهندسين؟ تقييم شامل وتحديات جديدة!

هل تستطيع نماذج اللغة الرؤية (VLMs) التفكير مثل المهندسين؟ تقييم شامل وتحديات جديدة!

أركايف للذكاءمنذ 1 شهر

WeaveBench: منطلق اختبار شامل لوكلاء الحاسوب ذوي الواجهات الهجينة!

WeaveBench: منطلق اختبار شامل لوكلاء الحاسوب ذوي الواجهات الهجينة!

أركايف للذكاءمنذ 1 شهر

AVI-Bench: ثورة جديدة في الذكاء السمعي البصري للذكاء الاصطناعي!

AVI-Bench: ثورة جديدة في الذكاء السمعي البصري للذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر

إطلاق SpatialWorld: معيار جديد لتقييم القدرة التفاعلية للذكاء الاصطناعي في المهام الواقعية!

إطلاق SpatialWorld: معيار جديد لتقييم القدرة التفاعلية للذكاء الاصطناعي في المهام الواقعية!

أركايف للذكاءمنذ 1 شهر

IMUG-Bench: معيار جديد لتقييم نماذج متعددة الوسائط في حوار تفاعلي مُعقد

IMUG-Bench: معيار جديد لتقييم نماذج متعددة الوسائط في حوار تفاعلي مُعقد

أركايف للذكاءمنذ 1 شهر

فكر سريعاً: تقدير أوقات إنجاز المهام للذكاء الاصطناعي المتطور بدون تفكير صريح!

فكر سريعاً: تقدير أوقات إنجاز المهام للذكاء الاصطناعي المتطور بدون تفكير صريح!

أركايف للذكاءمنذ 1 شهر

سبل جديدة في عالم الذكاء الاصطناعي: SentinelBench وتحدي المراقبة الطويلة الأمد

سبل جديدة في عالم الذكاء الاصطناعي: SentinelBench وتحدي المراقبة الطويلة الأمد

أركايف للذكاءمنذ 1 شهر

طفرة جديدة في نماذج العالم: تقنية World Action Verifier تعيد تعريف الذكاء الاصطناعي

طفرة جديدة في نماذج العالم: تقنية World Action Verifier تعيد تعريف الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر

سير النظام الموحد: ثورة في إطار التجارب لفهم الكلام

سير النظام الموحد: ثورة في إطار التجارب لفهم الكلام

أركايف للذكاءمنذ 1 شهر

إي-فالواتور: الأداة الثورية لتقييم موثوقية أنظمة الذكاء الاصطناعي

إي-فالواتور: الأداة الثورية لتقييم موثوقية أنظمة الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر

GPF-LiveNews: بروتوكول مثير لتقييم نماذج اللغة في إطار أحداث حية!

GPF-LiveNews: بروتوكول مثير لتقييم نماذج اللغة في إطار أحداث حية!

أركايف للذكاءمنذ 1 شهر

هل يمكن أن تجيب الأنظمة الذكية بشكل مختلف على نفس السؤال؟ اكتشفوا سر الاعتماد على المصادر المتعددة في الرعاية الصحية!

هل يمكن أن تجيب الأنظمة الذكية بشكل مختلف على نفس السؤال؟ اكتشفوا سر الاعتماد على المصادر المتعددة في الرعاية الصحية!

أركايف للذكاءمنذ 1 شهر

تحليل فعالية الاقتباسات: كيف يمكن تحسين دقة الإشارة في تقييم RAG

تحليل فعالية الاقتباسات: كيف يمكن تحسين دقة الإشارة في تقييم RAG

أركايف للذكاءمنذ 1 شهر

MatFormBench: الإطار الثوري لتقييم تصميم المواد المستهدف وتحسين الأداء

MatFormBench: الإطار الثوري لتقييم تصميم المواد المستهدف وتحسين الأداء

أركايف للذكاءمنذ 1 شهر

StakeBench: إطار ثوري لتقييم فهم اللغة على أساس التزام السوق!

StakeBench: إطار ثوري لتقييم فهم اللغة على أساس التزام السوق!

أركايف للذكاءمنذ 1 شهر

CityRep: معيار موحد لتقييم التمثيلات الحضرية عبر المدن والمهام والأساليب!

CityRep: معيار موحد لتقييم التمثيلات الحضرية عبر المدن والمهام والأساليب!

أركايف للذكاءمنذ 1 شهر

فهم ذاكرتنا الوكيلة: تحليل هياكلها وقيودها عبر دراسة شاملة

فهم ذاكرتنا الوكيلة: تحليل هياكلها وقيودها عبر دراسة شاملة

أركايف للذكاءمنذ 1 شهر

كوك سكيل: المعيار الثوري لقياس معالجة التسلسلات في الذكاء الاصطناعي

كوك سكيل: المعيار الثوري لقياس معالجة التسلسلات في الذكاء الاصطناعي

أركايف للذكاءمنذ 2 شهر

← السابق2 / 4التالي →