Ailoxa Logo

🏷️ #تقييم الذكاء الاصطناعي

41 مقال

تعزيز التقييم الذاتي: كيف يغير VIGIL من فهمنا لوكالات الذكاء الاصطناعي؟
أبحاث

تعزيز التقييم الذاتي: كيف يغير VIGIL من فهمنا لوكالات الذكاء الاصطناعي؟

أركايف للذكاءمنذ 24 يوم
الذكاء الاصطناعي عند حافة الانهيار الإحصائي: ثورة في تقييم التطبيقات التفاعلية!
أبحاث

الذكاء الاصطناعي عند حافة الانهيار الإحصائي: ثورة في تقييم التطبيقات التفاعلية!

أركايف للذكاءمنذ 24 يوم
PhyGround: تقييم الذكاء الاصطناعي في فهم الفيزياء بعالم الافتراضات!
أبحاث

PhyGround: تقييم الذكاء الاصطناعي في فهم الفيزياء بعالم الافتراضات!

أركايف للذكاءمنذ 24 يوم
REAP: كيف أحدثت ثورة في تقييم وكالات البرمجة باستخدام الذكاء الاصطناعي
أبحاث

REAP: كيف أحدثت ثورة في تقييم وكالات البرمجة باستخدام الذكاء الاصطناعي

أركايف للذكاءمنذ 24 يوم
اكتشاف تنوع ردود الفعل في نماذج اللغة: بروتوكول مبتكر لتقييم تأثير سياق التقييم
أبحاث

اكتشاف تنوع ردود الفعل في نماذج اللغة: بروتوكول مبتكر لتقييم تأثير سياق التقييم

أركايف للذكاءمنذ 28 يوم
كيف تجعل تقييمات الذكاء الاصطناعي أكثر ملاءمة من خلال تحديد السياق؟
أبحاث

كيف تجعل تقييمات الذكاء الاصطناعي أكثر ملاءمة من خلال تحديد السياق؟

أركايف للذكاءمنذ 28 يوم
إعادة تعريف تقييم نماذج اللغة: إطار عمل يتجاوز الحدود الثابتة
أبحاث

إعادة تعريف تقييم نماذج اللغة: إطار عمل يتجاوز الحدود الثابتة

أركايف للذكاءمنذ 28 يوم
اكتشاف أفق جديد في تقييم الذكاء الاصطناعي: مفهوم توازن البطولات اللينة
أبحاث

اكتشاف أفق جديد في تقييم الذكاء الاصطناعي: مفهوم توازن البطولات اللينة

أركايف للذكاءمنذ 29 يوم
نموذج NeuroState-Bench يفتح آفاق جديدة لفهم التزام الذكاء الاصطناعي!
أبحاث

نموذج NeuroState-Bench يفتح آفاق جديدة لفهم التزام الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر
كيف تقيس الذكاء الاصطناعي؟ دليل شامل للباحثين حول تقييم التفكير في نماذج اللغة!
أبحاث

كيف تقيس الذكاء الاصطناعي؟ دليل شامل للباحثين حول تقييم التفكير في نماذج اللغة!

أركايف للذكاءمنذ 1 شهر
ثورة في تقييم نماذج الذكاء الاصطناعي: Prosa يغير طريقة تقييم المحادثات باللغة البرتغالية
أبحاث

ثورة في تقييم نماذج الذكاء الاصطناعي: Prosa يغير طريقة تقييم المحادثات باللغة البرتغالية

أركايف للذكاءمنذ 1 شهر
كلو-إيفال: تقييم موثوق لوكلاء الذكاء الاصطناعي المستقلين
أبحاث

كلو-إيفال: تقييم موثوق لوكلاء الذكاء الاصطناعي المستقلين

أركايف للذكاءمنذ 1 شهر
AgentPulse: كيف تقوم بإعادة تعريف تقييم وكالات الذكاء الاصطناعي في بيئات العمل الديناميكية؟
أبحاث

AgentPulse: كيف تقوم بإعادة تعريف تقييم وكالات الذكاء الاصطناعي في بيئات العمل الديناميكية؟

أركايف للذكاءمنذ 1 شهر
هل يلمع الصوت حقًا؟ إعادة التفكير في الاعتماد على الصوت في تقييم نماذج اللغة الصوتية
أبحاث

هل يلمع الصوت حقًا؟ إعادة التفكير في الاعتماد على الصوت في تقييم نماذج اللغة الصوتية

أركايف للذكاءمنذ 1 شهر
اختبار الزمن: إعادة تفكير في تأثير التلوث الزمني على تقييم الأداء
أبحاث

اختبار الزمن: إعادة تفكير في تأثير التلوث الزمني على تقييم الأداء

أركايف للذكاءمنذ 1 شهر
ثورة في تقييم نماذج الذكاء الاصطناعي: كيف تقيم الألعاب؟
أبحاث

ثورة في تقييم نماذج الذكاء الاصطناعي: كيف تقيم الألعاب؟

أركايف للذكاءمنذ 1 شهر
AgencyBench: ثورة في تقييم قدرات الوكلاء الذكيين في عالم حقيقي معقد!
أبحاث

AgencyBench: ثورة في تقييم قدرات الوكلاء الذكيين في عالم حقيقي معقد!

أركايف للذكاءمنذ 1 شهر
قياس الذكاء الاصطناعي: كيف تُشكّل الأنظمة الاجتماعية والخوارزمية القيم والمعاني؟
أبحاث

قياس الذكاء الاصطناعي: كيف تُشكّل الأنظمة الاجتماعية والخوارزمية القيم والمعاني؟

أركايف للذكاءمنذ 1 شهر
MEDLEY-BENCH: أداة جديدة لتقييم التفكير الذاتي في الذكاء الاصطناعي
أبحاث

MEDLEY-BENCH: أداة جديدة لتقييم التفكير الذاتي في الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر
ثورة الذكاء الاصطناعي في العلوم: COMPOSITE-STEM يغير قواعد اللعبة!
أبحاث

ثورة الذكاء الاصطناعي في العلوم: COMPOSITE-STEM يغير قواعد اللعبة!

أركايف للذكاءمنذ 1 شهر