Ailoxa Logo

🏷️ #تقييم الأداء

98 مقال

كيف يمكن لمعايير تقييم نية الذكاء الاصطناعي أن تغير قواعد اللعبة في تطوير نماذج اللغة الكبيرة؟
أبحاث

كيف يمكن لمعايير تقييم نية الذكاء الاصطناعي أن تغير قواعد اللعبة في تطوير نماذج اللغة الكبيرة؟

أركايف للذكاءمنذ 21 يوم
EVA-Bench: الإطار الثوري لتقييم الوكلاء الصوتيين في الذكاء الاصطناعي!
أبحاث

EVA-Bench: الإطار الثوري لتقييم الوكلاء الصوتيين في الذكاء الاصطناعي!

أركايف للذكاءمنذ 22 يوم
ATBench: منصة جديدة لقياس سلامة وكفاءة الوكلاء الذكيين!
أبحاث

ATBench: منصة جديدة لقياس سلامة وكفاءة الوكلاء الذكيين!

أركايف للذكاءمنذ 22 يوم
قياس ما يهم: معايير جديدة للذكاء الاصطناعي في الرعاية الصحية
أبحاث

قياس ما يهم: معايير جديدة للذكاء الاصطناعي في الرعاية الصحية

أركايف للذكاءمنذ 24 يوم
إنشاء EnactToM: معيار متطور لفهم نظرية العقل في الوكلاء الجسديين
أبحاث

إنشاء EnactToM: معيار متطور لفهم نظرية العقل في الوكلاء الجسديين

أركايف للذكاءمنذ 24 يوم
الانتقال من التحكم إلى البرية: تقييم وكالات اختبار الاختراق في العالم الحقيقي!
أبحاث

الانتقال من التحكم إلى البرية: تقييم وكالات اختبار الاختراق في العالم الحقيقي!

أركايف للذكاءمنذ 24 يوم
تطوير معايير تقييم فعّالة خالية من تسرب المعرفة لتعزيز قوة نماذج الذكاء الاصطناعي
أبحاث

تطوير معايير تقييم فعّالة خالية من تسرب المعرفة لتعزيز قوة نماذج الذكاء الاصطناعي

أركايف للذكاءمنذ 24 يوم
تحليل فريد لتقييم دقة الإشارة المرجعية باستخدام سُمّيات صريحة
أبحاث

تحليل فريد لتقييم دقة الإشارة المرجعية باستخدام سُمّيات صريحة

أركايف للذكاءمنذ 24 يوم
DSGBench: منصة رائدة لتقييم الوكلاء المعتمدين على نماذج اللغة الكبيرة في بيئات صنع القرار المعقدة!
أبحاث

DSGBench: منصة رائدة لتقييم الوكلاء المعتمدين على نماذج اللغة الكبيرة في بيئات صنع القرار المعقدة!

أركايف للذكاءمنذ 24 يوم
ثورة جديدة في ضغط السياق: أساسيات قوية لتحسين الأداء في الذكاء الاصطناعي!
أبحاث

ثورة جديدة في ضغط السياق: أساسيات قوية لتحسين الأداء في الذكاء الاصطناعي!

أركايف للذكاءمنذ 24 يوم
عندما تتوقف الأدلة المخزنة عن كونها قابلة للاستخدام: تقييم ذاكرة الوكيل في ظل نمو الأدلة
أبحاث

عندما تتوقف الأدلة المخزنة عن كونها قابلة للاستخدام: تقييم ذاكرة الوكيل في ظل نمو الأدلة

أركايف للذكاءمنذ 25 يوم
SCOPE: تطور ثوري في توليد الصور المعقدة بفضل تنظيم المهارات المشروط
أبحاث

SCOPE: تطور ثوري في توليد الصور المعقدة بفضل تنظيم المهارات المشروط

أركايف للذكاءمنذ 25 يوم
اختبار حساسية النصوص: كيف تتفاعل نماذج الذكاء الاصطناعي مع لغات العالم المتعددة؟
أبحاث

اختبار حساسية النصوص: كيف تتفاعل نماذج الذكاء الاصطناعي مع لغات العالم المتعددة؟

أركايف للذكاءمنذ 25 يوم
الحلول الدقيقة: الثقة في تقييمات وكلاء LLM التعاونية
أبحاث

الحلول الدقيقة: الثقة في تقييمات وكلاء LLM التعاونية

أركايف للذكاءمنذ 25 يوم
اكتشاف معاناة وكالات البرمجة: كيف تتدهور الكودات مع SlopCodeBench
أبحاث

اكتشاف معاناة وكالات البرمجة: كيف تتدهور الكودات مع SlopCodeBench

أركايف للذكاءمنذ 25 يوم
كيف تعاني نماذج اللغة والرؤية (VLMs) من ضعف الوعي بالخصوصية في العالم المادي؟
أبحاث

كيف تعاني نماذج اللغة والرؤية (VLMs) من ضعف الوعي بالخصوصية في العالم المادي؟

أركايف للذكاءمنذ 28 يوم
كيف تُعزز أنظمة الذكاء الاصطناعي تجربة التعلم؟ اكتشافات من 10,000 مشاركة طلابية
أبحاث

كيف تُعزز أنظمة الذكاء الاصطناعي تجربة التعلم؟ اكتشافات من 10,000 مشاركة طلابية

أركايف للذكاءمنذ 28 يوم
ثورة جديدة في علوم الحياة: تقديم BioAgent Bench لتقييم وكيل الذكاء الاصطناعي في المعلومات الحيوية
أبحاث

ثورة جديدة في علوم الحياة: تقديم BioAgent Bench لتقييم وكيل الذكاء الاصطناعي في المعلومات الحيوية

أركايف للذكاءمنذ 28 يوم
Workspace-Bench 1.0: انطلاقة جديدة في تقييم وكلاء الذكاء الاصطناعي في مهام العمل المعقدة
أبحاث

Workspace-Bench 1.0: انطلاقة جديدة في تقييم وكلاء الذكاء الاصطناعي في مهام العمل المعقدة

أركايف للذكاءمنذ 29 يوم
اختبار Vibe Code Bench: تقييم نماذج الذكاء الاصطناعي في تطوير تطبيقات الويب بشكل شامل!
أبحاث

اختبار Vibe Code Bench: تقييم نماذج الذكاء الاصطناعي في تطوير تطبيقات الويب بشكل شامل!

أركايف للذكاءمنذ 29 يوم