🏷️ #تقييم الأداء

164 مقال

WebSP-Eval: ثورة جديدة في تقييم أداء الوكلاء عبر الإنترنت في مهام الأمان والخصوصية!

WebSP-Eval: ثورة جديدة في تقييم أداء الوكلاء عبر الإنترنت في مهام الأمان والخصوصية!

أركايف للذكاءمنذ 1 شهر

خارطة جديدة للنجاح: كيف تعزز MapSatisfyBench رضا المستخدمين في خدمات الخرائط!

خارطة جديدة للنجاح: كيف تعزز MapSatisfyBench رضا المستخدمين في خدمات الخرائط!

أركايف للذكاءمنذ 1 شهر

ثورة في قياس مهارات الوكلاء: كيف تُحسن SkillsBench من الأداء في مهام متنوعة؟

ثورة في قياس مهارات الوكلاء: كيف تُحسن SkillsBench من الأداء في مهام متنوعة؟

أركايف للذكاءمنذ 1 شهر

هل قياسات تحرك مركبتك في بيئات طويلة الذيل آمنة؟ اكتشف الحلول الثورية!

هل قياسات تحرك مركبتك في بيئات طويلة الذيل آمنة؟ اكتشف الحلول الثورية!

أركايف للذكاءمنذ 1 شهر

الأبعاد الاقتصادية للذكاء الاصطناعي: كيف تتم تقييمات وكالات الذكاء الاصطناعي في بيئات العمل الحديثة؟

الأبعاد الاقتصادية للذكاء الاصطناعي: كيف تتم تقييمات وكالات الذكاء الاصطناعي في بيئات العمل الحديثة؟

أركايف للذكاءمنذ 1 شهر

كافيبينش: منصة جديدة لتقييم وكيل الذكاء الاصطناعي في اقتصادات متعددة الوكلاء!

كافيبينش: منصة جديدة لتقييم وكيل الذكاء الاصطناعي في اقتصادات متعددة الوكلاء!

أركايف للذكاءمنذ 1 شهر

استكشاف عقول الذكاء الاصطناعي: بطاقة تكتيكية جديدة في استراتيجية اللعب عبر منصة Poker Arena

نماذج لغوية

استكشاف عقول الذكاء الاصطناعي: بطاقة تكتيكية جديدة في استراتيجية اللعب عبر منصة Poker Arena

أركايف للذكاءمنذ 1 شهر

DSAEval: تقييم أداء وكلاء علوم البيانات في تحديات حقيقية ومتنوعة

DSAEval: تقييم أداء وكلاء علوم البيانات في تحديات حقيقية ومتنوعة

أركايف للذكاءمنذ 1 شهر

ثورة تقييم القوة في أنظمة المعلومات: إطار عمل مبتكر لتصنيف البيانات المدعومة جزئيًا

ثورة تقييم القوة في أنظمة المعلومات: إطار عمل مبتكر لتصنيف البيانات المدعومة جزئيًا

أركايف للذكاءمنذ 1 شهر

ثورة الذكاء الاصطناعي في البحث العلمي: Arena SciAgent تطلق معايير جديدة!

ثورة الذكاء الاصطناعي في البحث العلمي: Arena SciAgent تطلق معايير جديدة!

أركايف للذكاءمنذ 1 شهر

VDE Bench: ثورة في تحرير الوثائق البصرية وتعزيز قدرات نماذج تحرير الصور!

VDE Bench: ثورة في تحرير الوثائق البصرية وتعزيز قدرات نماذج تحرير الصور!

أركايف للذكاءمنذ 1 شهر

SciR: معيار ثوري لتقييم التفكير العلمي في نماذج اللغات الضخمة

SciR: معيار ثوري لتقييم التفكير العلمي في نماذج اللغات الضخمة

أركايف للذكاءمنذ 1 شهر

مقاييس هندسية لتقييم نماذج اللغة الكبيرة: ما تقيسه ومتى تنجح؟

مقاييس هندسية لتقييم نماذج اللغة الكبيرة: ما تقيسه ومتى تنجح؟

أركايف للذكاءمنذ 1 شهر

Workflow-GYM: ثورة في تقييم أداء الوكلاء الذكاء الاصطناعي في بيئات العمل الاحترافية!

Workflow-GYM: ثورة في تقييم أداء الوكلاء الذكاء الاصطناعي في بيئات العمل الاحترافية!

أركايف للذكاءمنذ 1 شهر

CollabSkill: ثورة في تقييم تعاون الإنسان مع الذكاء الاصطناعي في بيئات العمل!

CollabSkill: ثورة في تقييم تعاون الإنسان مع الذكاء الاصطناعي في بيئات العمل!

أركايف للذكاءمنذ 1 شهر

كيف يمكن لنماذج اللغة متعددة الأنماط أن تعيد تشكيل الدراسات القائمة على الفيديو؟ 🔍✨

كيف يمكن لنماذج اللغة متعددة الأنماط أن تعيد تشكيل الدراسات القائمة على الفيديو؟ 🔍✨

أركايف للذكاءمنذ 1 شهر

معايير جديدة لدعم القرارات الطبية: تقييم نماذج لغوية بالبرتغالية البرازيلية

معايير جديدة لدعم القرارات الطبية: تقييم نماذج لغوية بالبرتغالية البرازيلية

أركايف للذكاءمنذ 1 شهر

ثورة في نماذج الذكاء الاصطناعي: تقييم جديد لنماذج الرؤية واللغة والعمل!

ثورة في نماذج الذكاء الاصطناعي: تقييم جديد لنماذج الرؤية واللغة والعمل!

أركايف للذكاءمنذ 1 شهر

OmniGameArena: منصة متكاملة لتقييم أداء وكالات الذكاء الاصطناعي في ألعاب Unreal Engine 5!

OmniGameArena: منصة متكاملة لتقييم أداء وكالات الذكاء الاصطناعي في ألعاب Unreal Engine 5!

أركايف للذكاءمنذ 1 شهر

EvoClaw: كيف تقيم الوكالات الذكية في تطور البرمجيات المستمر؟

EvoClaw: كيف تقيم الوكالات الذكية في تطور البرمجيات المستمر؟

أركايف للذكاءمنذ 1 شهر

← السابق3 / 9التالي →