🏷️ #تقييم
179 مقال
أبحاث
نموذج المكافأة المرتبطة بالتخطيط: ثورة في تقييم وكالات الذكاء الاصطناعي
أركايف للذكاءمنذ 24 يوم
أبحاث
ثورة في تقييم نماذج الذكاء الاصطناعي: كيف يكشف تعدد الأجيال عن قيمة جديدة
أركايف للذكاءمنذ 24 يوم
أبحاث
MECAT: معيار جديد ثوري لفهم الصوت مع دقة فائقة!
أركايف للذكاءمنذ 24 يوم
أدوات
AU-Harness: الأداة المفتوحة لتقييم شامل لنماذج اللغة الصوتية
أركايف للذكاءمنذ 24 يوم
أبحاث
اكتشفوا GraphBench: النقلة النوعية في تقييم تعلم الرسوم البيانية!
أركايف للذكاءمنذ 24 يوم
أبحاث
هل تستطيع نماذج اللغة الضخمة تقدير صعوبات الطلاب؟ دراسة جديدة تكشف عن تحديات ملائمة صعوبات التعلم مع الذكاء الاصطناعي
أركايف للذكاءمنذ 24 يوم
أبحاث
ثورة في تدقيق أنظمة الذكاء الاصطناعي: ضمانات جديدة وآمنة
أركايف للذكاءمنذ 25 يوم
أبحاث
اختبار أداء الوكلاء: AgentEscapeBench يكشف تحديات التفكير المستند إلى الأدوات في نماذج اللغة
أركايف للذكاءمنذ 25 يوم
أبحاث
ثورة التعلم المعزز: كيف تُحسن المعايير المهيكلة من نتائج الذكاء الاصطناعي
أركايف للذكاءمنذ 25 يوم
أبحاث
إطار عمل مبتكر لتقييم نماذج اللغات الضخمة: دقة وسرعة بلا حدود!
أركايف للذكاءمنذ 25 يوم
أبحاث
البحث الجديد يكشف خفايا ضريبة الترجمة في التقييمات متعددة اللغات: إمكانيات غير متوقعة!
أركايف للذكاءمنذ 25 يوم
أبحاث
DRIP-R: معيار مبتكر لتقييم اتخاذ القرارات تحت غموض السياسات في مجال التجزئة!
أركايف للذكاءمنذ 25 يوم
أبحاث
ثورة التصميم: تقييم نماذج Text-to-CAD بكل سهولة وفاعلية!
أركايف للذكاءمنذ 25 يوم
أبحاث
اختبار نماذج العالم: ثورة في تقييم الذكاء الاصطناعي بطرق جديدة!
أركايف للذكاءمنذ 25 يوم
أبحاث
AirQualityBench: معيار تقييم واقعي للforecasting جودة الهواء العالمية!
أركايف للذكاءمنذ 28 يوم
أبحاث
تجاوز المعايير الثابتة: تقييم حدود ديناميكي لنماذج اللغة لتحسين القدرات
أركايف للذكاءمنذ 28 يوم
أبحاث
SCRuB: ثورة في تقييم تفكير النماذج اللغوية حول المفاهيم الاجتماعية
أركايف للذكاءمنذ 28 يوم
أبحاث
ثورة التفكير النقدي: كيف يقيم الذكاء الاصطناعي والحكم البشري الحجج المضادة؟
أركايف للذكاءمنذ 28 يوم
أبحاث
تحدي تقييم أمان نماذج اللغة: كيف يمكن مقارنة النماذج بدون مؤشرات معيارية؟
أركايف للذكاءمنذ 28 يوم
أبحاث
تحقيق الدقة في الاستنتاجات متعددة الوسائط: نموذج MuRGAt لنماذج اللغة القوية
أركايف للذكاءمنذ 28 يوم
