Ailoxa Logo

🏷️ #تقييم

179 مقال

تسليط الضوء على تأثيرات النماذج اللغوية الضخمة: إطار شفاف لتقدير الأداء
أبحاث

تسليط الضوء على تأثيرات النماذج اللغوية الضخمة: إطار شفاف لتقدير الأداء

أركايف للذكاءمنذ 1 شهر
CyberCertBench: أداة مبتكرة لتقييم مهارات نماذج اللغة في أمن المعلومات
أبحاث

CyberCertBench: أداة مبتكرة لتقييم مهارات نماذج اللغة في أمن المعلومات

أركايف للذكاءمنذ 1 شهر
OMIBench: ثورة في تقييم القدرة الاستدلالية للنماذج البصرية اللغوية المتقدمة!
أبحاث

OMIBench: ثورة في تقييم القدرة الاستدلالية للنماذج البصرية اللغوية المتقدمة!

أركايف للذكاءمنذ 1 شهر
إطار عمل LLM كقاضي: تقييم الخيال الناتج عن نبرة المدخلات في نماذج اللغة والرؤية
أبحاث

إطار عمل LLM كقاضي: تقييم الخيال الناتج عن نبرة المدخلات في نماذج اللغة والرؤية

أركايف للذكاءمنذ 1 شهر
CulturALL: تحدي تقييم ذكاء النماذج اللغوية متعددة الثقافات واللغات!
نماذج لغوية

CulturALL: تحدي تقييم ذكاء النماذج اللغوية متعددة الثقافات واللغات!

أركايف للذكاءمنذ 1 شهر
ابتكار جديد: كيفية تعزيز الاكتشافات العلمية من خلال القياس المدعوم بالتقييم
أبحاث

ابتكار جديد: كيفية تعزيز الاكتشافات العلمية من خلال القياس المدعوم بالتقييم

أركايف للذكاءمنذ 1 شهر
مؤشر الدفاع السيبراني: تقييم مطاردة التهديدات باستخدام نماذج اللغة في عمليات الأمان
أبحاث

مؤشر الدفاع السيبراني: تقييم مطاردة التهديدات باستخدام نماذج اللغة في عمليات الأمان

أركايف للذكاءمنذ 1 شهر
كيف تغيرت آراء مراجعة الأقران بفضل نماذج اللغات الضخمة؟
أبحاث

كيف تغيرت آراء مراجعة الأقران بفضل نماذج اللغات الضخمة؟

أركايف للذكاءمنذ 1 شهر
RepIt: الابتكار الذي يكشف عيوب نماذج اللغة في تقييم السلامة
أبحاث

RepIt: الابتكار الذي يكشف عيوب نماذج اللغة في تقييم السلامة

أركايف للذكاءمنذ 1 شهر
دليل شامل لتقييم مساعدي الذكاء الاصطناعي: سحابيات مقابل محليين في استخراج السلاسل السببية
أبحاث

دليل شامل لتقييم مساعدي الذكاء الاصطناعي: سحابيات مقابل محليين في استخراج السلاسل السببية

أركايف للذكاءمنذ 1 شهر
AlphaContext: ثورة في توليد السياقات النفسية لتقييم الإبداع
أبحاث

AlphaContext: ثورة في توليد السياقات النفسية لتقييم الإبداع

أركايف للذكاءمنذ 1 شهر
PRL-Bench: المعيار الشامل لقياس قدرات نماذج الذكاء الاصطناعي في أبحاث الفيزياء الرائدة
أبحاث

PRL-Bench: المعيار الشامل لقياس قدرات نماذج الذكاء الاصطناعي في أبحاث الفيزياء الرائدة

أركايف للذكاءمنذ 1 شهر
BAGEL: معيار جديد لتقييم معرفة نماذج اللغة حول الحياة الحيوانية
أبحاث

BAGEL: معيار جديد لتقييم معرفة نماذج اللغة حول الحياة الحيوانية

أركايف للذكاءمنذ 1 شهر
تطوير ثوري: إطلاق vla-eval لتقييم نماذج الرؤية واللغة والعمل
أدوات

تطوير ثوري: إطلاق vla-eval لتقييم نماذج الرؤية واللغة والعمل

أركايف للذكاءمنذ 1 شهر
ابتكار MTR-DuplexBench: تقييم شامل للمحادثات المتعددة للجولات في نماذج الكلام المزدوج
أبحاث

ابتكار MTR-DuplexBench: تقييم شامل للمحادثات المتعددة للجولات في نماذج الكلام المزدوج

أركايف للذكاءمنذ 1 شهر
InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود
أبحاث

InfiniteScienceGym: معايير مبتكرة لتحليل علمي غير محدود

أركايف للذكاءمنذ 1 شهر
ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية
أبحاث

ما هو BenGER؟ منصة ويب مبتكرة لتقييم المهام القانونية الألمانية

أركايف للذكاءمنذ 1 شهر
تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة
أبحاث

تقييم نماذج التعلم الآلي المُشرف: المبادئ، التحديات، واختيار المقاييس الفعّالة

أركايف للذكاءمنذ 1 شهر
LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق
أبحاث

LongCoT: معيار جديد لقياس قدرة الذكاء الاصطناعي على التفكير العميق

أركايف للذكاءمنذ 1 شهر
ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!
أدوات

ثورة في تجربة المستخدم: Avenir-UX لتقييم واجهات المواقع بشكل آلي يغير قواعد اللعبة!

أركايف للذكاءمنذ 1 شهر