🏷️ #تقييم الأداء
98 مقال
أبحاث
كيف يمكن لمعايير تقييم نية الذكاء الاصطناعي أن تغير قواعد اللعبة في تطوير نماذج اللغة الكبيرة؟
أركايف للذكاءمنذ 21 يوم
أبحاث
EVA-Bench: الإطار الثوري لتقييم الوكلاء الصوتيين في الذكاء الاصطناعي!
أركايف للذكاءمنذ 22 يوم
أبحاث
ATBench: منصة جديدة لقياس سلامة وكفاءة الوكلاء الذكيين!
أركايف للذكاءمنذ 22 يوم
أبحاث
قياس ما يهم: معايير جديدة للذكاء الاصطناعي في الرعاية الصحية
أركايف للذكاءمنذ 24 يوم
أبحاث
إنشاء EnactToM: معيار متطور لفهم نظرية العقل في الوكلاء الجسديين
أركايف للذكاءمنذ 24 يوم
أبحاث
الانتقال من التحكم إلى البرية: تقييم وكالات اختبار الاختراق في العالم الحقيقي!
أركايف للذكاءمنذ 24 يوم
أبحاث
تطوير معايير تقييم فعّالة خالية من تسرب المعرفة لتعزيز قوة نماذج الذكاء الاصطناعي
أركايف للذكاءمنذ 24 يوم
أبحاث
تحليل فريد لتقييم دقة الإشارة المرجعية باستخدام سُمّيات صريحة
أركايف للذكاءمنذ 24 يوم
أبحاث
DSGBench: منصة رائدة لتقييم الوكلاء المعتمدين على نماذج اللغة الكبيرة في بيئات صنع القرار المعقدة!
أركايف للذكاءمنذ 24 يوم
أبحاث
ثورة جديدة في ضغط السياق: أساسيات قوية لتحسين الأداء في الذكاء الاصطناعي!
أركايف للذكاءمنذ 24 يوم
أبحاث
عندما تتوقف الأدلة المخزنة عن كونها قابلة للاستخدام: تقييم ذاكرة الوكيل في ظل نمو الأدلة
أركايف للذكاءمنذ 25 يوم
أبحاث
SCOPE: تطور ثوري في توليد الصور المعقدة بفضل تنظيم المهارات المشروط
أركايف للذكاءمنذ 25 يوم
أبحاث
اختبار حساسية النصوص: كيف تتفاعل نماذج الذكاء الاصطناعي مع لغات العالم المتعددة؟
أركايف للذكاءمنذ 25 يوم
أبحاث
الحلول الدقيقة: الثقة في تقييمات وكلاء LLM التعاونية
أركايف للذكاءمنذ 25 يوم
أبحاث
اكتشاف معاناة وكالات البرمجة: كيف تتدهور الكودات مع SlopCodeBench
أركايف للذكاءمنذ 25 يوم
أبحاث
كيف تعاني نماذج اللغة والرؤية (VLMs) من ضعف الوعي بالخصوصية في العالم المادي؟
أركايف للذكاءمنذ 28 يوم
أبحاث
كيف تُعزز أنظمة الذكاء الاصطناعي تجربة التعلم؟ اكتشافات من 10,000 مشاركة طلابية
أركايف للذكاءمنذ 28 يوم
أبحاث
ثورة جديدة في علوم الحياة: تقديم BioAgent Bench لتقييم وكيل الذكاء الاصطناعي في المعلومات الحيوية
أركايف للذكاءمنذ 28 يوم
أبحاث
Workspace-Bench 1.0: انطلاقة جديدة في تقييم وكلاء الذكاء الاصطناعي في مهام العمل المعقدة
أركايف للذكاءمنذ 29 يوم
أبحاث
اختبار Vibe Code Bench: تقييم نماذج الذكاء الاصطناعي في تطوير تطبيقات الويب بشكل شامل!
أركايف للذكاءمنذ 29 يوم
