Ailoxa Logo

🏷️ #تقييم

179 مقال

نموذج المكافأة المرتبطة بالتخطيط: ثورة في تقييم وكالات الذكاء الاصطناعي
أبحاث

نموذج المكافأة المرتبطة بالتخطيط: ثورة في تقييم وكالات الذكاء الاصطناعي

أركايف للذكاءمنذ 24 يوم
ثورة في تقييم نماذج الذكاء الاصطناعي: كيف يكشف تعدد الأجيال عن قيمة جديدة
أبحاث

ثورة في تقييم نماذج الذكاء الاصطناعي: كيف يكشف تعدد الأجيال عن قيمة جديدة

أركايف للذكاءمنذ 24 يوم
MECAT: معيار جديد ثوري لفهم الصوت مع دقة فائقة!
أبحاث

MECAT: معيار جديد ثوري لفهم الصوت مع دقة فائقة!

أركايف للذكاءمنذ 24 يوم
AU-Harness: الأداة المفتوحة لتقييم شامل لنماذج اللغة الصوتية
أدوات

AU-Harness: الأداة المفتوحة لتقييم شامل لنماذج اللغة الصوتية

أركايف للذكاءمنذ 24 يوم
اكتشفوا GraphBench: النقلة النوعية في تقييم تعلم الرسوم البيانية!
أبحاث

اكتشفوا GraphBench: النقلة النوعية في تقييم تعلم الرسوم البيانية!

أركايف للذكاءمنذ 24 يوم
هل تستطيع نماذج اللغة الضخمة تقدير صعوبات الطلاب؟ دراسة جديدة تكشف عن تحديات ملائمة صعوبات التعلم مع الذكاء الاصطناعي
أبحاث

هل تستطيع نماذج اللغة الضخمة تقدير صعوبات الطلاب؟ دراسة جديدة تكشف عن تحديات ملائمة صعوبات التعلم مع الذكاء الاصطناعي

أركايف للذكاءمنذ 24 يوم
ثورة في تدقيق أنظمة الذكاء الاصطناعي: ضمانات جديدة وآمنة
أبحاث

ثورة في تدقيق أنظمة الذكاء الاصطناعي: ضمانات جديدة وآمنة

أركايف للذكاءمنذ 25 يوم
اختبار أداء الوكلاء: AgentEscapeBench يكشف تحديات التفكير المستند إلى الأدوات في نماذج اللغة
أبحاث

اختبار أداء الوكلاء: AgentEscapeBench يكشف تحديات التفكير المستند إلى الأدوات في نماذج اللغة

أركايف للذكاءمنذ 25 يوم
ثورة التعلم المعزز: كيف تُحسن المعايير المهيكلة من نتائج الذكاء الاصطناعي
أبحاث

ثورة التعلم المعزز: كيف تُحسن المعايير المهيكلة من نتائج الذكاء الاصطناعي

أركايف للذكاءمنذ 25 يوم
إطار عمل مبتكر لتقييم نماذج اللغات الضخمة: دقة وسرعة بلا حدود!
أبحاث

إطار عمل مبتكر لتقييم نماذج اللغات الضخمة: دقة وسرعة بلا حدود!

أركايف للذكاءمنذ 25 يوم
البحث الجديد يكشف خفايا ضريبة الترجمة في التقييمات متعددة اللغات: إمكانيات غير متوقعة!
أبحاث

البحث الجديد يكشف خفايا ضريبة الترجمة في التقييمات متعددة اللغات: إمكانيات غير متوقعة!

أركايف للذكاءمنذ 25 يوم
DRIP-R: معيار مبتكر لتقييم اتخاذ القرارات تحت غموض السياسات في مجال التجزئة!
أبحاث

DRIP-R: معيار مبتكر لتقييم اتخاذ القرارات تحت غموض السياسات في مجال التجزئة!

أركايف للذكاءمنذ 25 يوم
ثورة التصميم: تقييم نماذج Text-to-CAD بكل سهولة وفاعلية!
أبحاث

ثورة التصميم: تقييم نماذج Text-to-CAD بكل سهولة وفاعلية!

أركايف للذكاءمنذ 25 يوم
اختبار نماذج العالم: ثورة في تقييم الذكاء الاصطناعي بطرق جديدة!
أبحاث

اختبار نماذج العالم: ثورة في تقييم الذكاء الاصطناعي بطرق جديدة!

أركايف للذكاءمنذ 25 يوم
AirQualityBench: معيار تقييم واقعي للforecasting جودة الهواء العالمية!
أبحاث

AirQualityBench: معيار تقييم واقعي للforecasting جودة الهواء العالمية!

أركايف للذكاءمنذ 28 يوم
تجاوز المعايير الثابتة: تقييم حدود ديناميكي لنماذج اللغة لتحسين القدرات
أبحاث

تجاوز المعايير الثابتة: تقييم حدود ديناميكي لنماذج اللغة لتحسين القدرات

أركايف للذكاءمنذ 28 يوم
SCRuB: ثورة في تقييم تفكير النماذج اللغوية حول المفاهيم الاجتماعية
أبحاث

SCRuB: ثورة في تقييم تفكير النماذج اللغوية حول المفاهيم الاجتماعية

أركايف للذكاءمنذ 28 يوم
ثورة التفكير النقدي: كيف يقيم الذكاء الاصطناعي والحكم البشري الحجج المضادة؟
أبحاث

ثورة التفكير النقدي: كيف يقيم الذكاء الاصطناعي والحكم البشري الحجج المضادة؟

أركايف للذكاءمنذ 28 يوم
تحدي تقييم أمان نماذج اللغة: كيف يمكن مقارنة النماذج بدون مؤشرات معيارية؟
أبحاث

تحدي تقييم أمان نماذج اللغة: كيف يمكن مقارنة النماذج بدون مؤشرات معيارية؟

أركايف للذكاءمنذ 28 يوم
تحقيق الدقة في الاستنتاجات متعددة الوسائط: نموذج MuRGAt لنماذج اللغة القوية
أبحاث

تحقيق الدقة في الاستنتاجات متعددة الوسائط: نموذج MuRGAt لنماذج اللغة القوية

أركايف للذكاءمنذ 28 يوم