Ailoxa Logo

🏷️ #تقييم

179 مقال

إطلاق CreativityBench: معيار جديد لتقييم الإبداع في الذكاء الاصطناعي من خلال إعادة استخدام الأدوات!
أبحاث

إطلاق CreativityBench: معيار جديد لتقييم الإبداع في الذكاء الاصطناعي من خلال إعادة استخدام الأدوات!

أركايف للذكاءمنذ 29 يوم
تقييم الأنظمة المستقلة في الوقت الحقيقي تحت هجمات معادية: كيف نحقق الأمان في القيادة الذاتية؟
أبحاث

تقييم الأنظمة المستقلة في الوقت الحقيقي تحت هجمات معادية: كيف نحقق الأمان في القيادة الذاتية؟

أركايف للذكاءمنذ 29 يوم
MCJudgeBench: الثورية في تقييم القضاة على مستوى القيود في تنفيذ التعليمات المتعددة!
أبحاث

MCJudgeBench: الثورية في تقييم القضاة على مستوى القيود في تنفيذ التعليمات المتعددة!

أركايف للذكاءمنذ 29 يوم
iWorld-Bench: المنصة الثورية لتقييم نماذج العالم التفاعلية في الذكاء الاصطناعي!
أبحاث

iWorld-Bench: المنصة الثورية لتقييم نماذج العالم التفاعلية في الذكاء الاصطناعي!

أركايف للذكاءمنذ 29 يوم
RoboEval: ثورة في تقييم الأداء الروبوتي من خلال مقاييس شاملة ومباشرة
روبوتات

RoboEval: ثورة في تقييم الأداء الروبوتي من خلال مقاييس شاملة ومباشرة

أركايف للذكاءمنذ 29 يوم
مؤشر GR-Ben: ثورة في تقييم نماذج المكافآت العملية في الذكاء الاصطناعي
أبحاث

مؤشر GR-Ben: ثورة في تقييم نماذج المكافآت العملية في الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر
اكتشاف الذكاء الاصطناعي الوكّي: ثغرات ومخاطر تتطلب إطار تقييم مبتكر!
أبحاث

اكتشاف الذكاء الاصطناعي الوكّي: ثغرات ومخاطر تتطلب إطار تقييم مبتكر!

أركايف للذكاءمنذ 1 شهر
مغامرة الذاكرة الذكية: تعرف على بروتوكول MEMAUDIT الثوري لتقييم الكتابة الطويلة الأمد!
أبحاث

مغامرة الذاكرة الذكية: تعرف على بروتوكول MEMAUDIT الثوري لتقييم الكتابة الطويلة الأمد!

أركايف للذكاءمنذ 1 شهر
إطلاق إطار CLEAR: كيف تؤثر الضوضاء والغموض على موثوقية النماذج اللغوية الكبيرة في الطب؟
أبحاث

إطلاق إطار CLEAR: كيف تؤثر الضوضاء والغموض على موثوقية النماذج اللغوية الكبيرة في الطب؟

أركايف للذكاءمنذ 1 شهر
ثورة تقييم الذكاء الاصطناعي: المبادئ التوجيهية لتجارب التحكم العشوائي
أبحاث

ثورة تقييم الذكاء الاصطناعي: المبادئ التوجيهية لتجارب التحكم العشوائي

أركايف للذكاءمنذ 1 شهر
اكتشاف الحدود: منصة oMeBench لقياس قدرة نماذج اللغة في فهم آليات التفاعلات العضوية
أبحاث

اكتشاف الحدود: منصة oMeBench لقياس قدرة نماذج اللغة في فهم آليات التفاعلات العضوية

أركايف للذكاءمنذ 1 شهر
هل يمكنك الوثوق بالاستثمارات المدعومة بالذكاء الاصطناعي؟ تعرف على قيمة ValueBlindBench!
أبحاث

هل يمكنك الوثوق بالاستثمارات المدعومة بالذكاء الاصطناعي؟ تعرف على قيمة ValueBlindBench!

أركايف للذكاءمنذ 1 شهر
سورج: إطار تقييم جديد لتحسين توليد الاستبيانات العلمية
أبحاث

سورج: إطار تقييم جديد لتحسين توليد الاستبيانات العلمية

أركايف للذكاءمنذ 1 شهر
من المختبر إلى العالم الحقيقي: تقييم التفكير البرمجي في مستوى المستودع
أبحاث

من المختبر إلى العالم الحقيقي: تقييم التفكير البرمجي في مستوى المستودع

أركايف للذكاءمنذ 1 شهر
اكتشاف إمكانيات الذكاء الاصطناعي: MCP-Atlas يرفع مستوى الكفاءة في استخدام الأدوات
أبحاث

اكتشاف إمكانيات الذكاء الاصطناعي: MCP-Atlas يرفع مستوى الكفاءة في استخدام الأدوات

أركايف للذكاءمنذ 1 شهر
FinChain: المعلم الرمزي الجديد في تقييم التحليل المالي القابل للتحقق
أبحاث

FinChain: المعلم الرمزي الجديد في تقييم التحليل المالي القابل للتحقق

أركايف للذكاءمنذ 1 شهر
ثورة التعليم: تقييم نماذج اللغة متعددة الوسائط لحل مشكلات طلاب STEM في الجامعات
أبحاث

ثورة التعليم: تقييم نماذج اللغة متعددة الوسائط لحل مشكلات طلاب STEM في الجامعات

أركايف للذكاءمنذ 1 شهر
إعادة التفكير في معايير الذكاء الاصطناعي في الرعاية الصحية: إطار MedCheck الثوري!
أبحاث

إعادة التفكير في معايير الذكاء الاصطناعي في الرعاية الصحية: إطار MedCheck الثوري!

أركايف للذكاءمنذ 1 شهر
اكتشف Auto-ARGUE: ثورة جديدة في تقييم توليد التقارير المعتمدة على الذكاء الاصطناعي!
أبحاث

اكتشف Auto-ARGUE: ثورة جديدة في تقييم توليد التقارير المعتمدة على الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر
كيف يمكن لقضاة الذكاء الاصطناعي أن يتجاوزوا التحيز؟ دراسة شاملة لاستراتيجيات التخفيف من التحيز في نماذج القضاة!
أبحاث

كيف يمكن لقضاة الذكاء الاصطناعي أن يتجاوزوا التحيز؟ دراسة شاملة لاستراتيجيات التخفيف من التحيز في نماذج القضاة!

أركايف للذكاءمنذ 1 شهر