🏷️ #تقييم الأداء
98 مقال
أبحاث
ثورة الذكاء الاصطناعي في الألعاب: تقييم محتوى لعبة الجري اللانهائي باستخدام وكلاء ذاتية
أركايف للذكاءمنذ 1 شهر
أبحاث
EngiBench: المعيار الثوري لتقييم نماذج اللغة الكبيرة في حل المشكلات الهندسية!
أركايف للذكاءمنذ 1 شهر
أبحاث
ثقة كبيرة في الذكاء الاصطناعي: كيف تؤثر طريقة التفكير على أداء نماذج اللغات الضخمة؟
أركايف للذكاءمنذ 1 شهر
روبوتات
استراتيجيات مبتكرة لتحسين المساعدين الافتراضيين في التسوق عبر الذكاء الاصطناعي
أركايف للذكاءمنذ 1 شهر
أبحاث
كيف يفهم GPT-4o الرؤية؟ تقييم النماذج متعددة الوسائط في مهام الرؤية الحاسوبية
أركايف للذكاءمنذ 1 شهر
أدوات
تحديات تقييم نظام تحويل النصوص إلى استعلامات SQL: إطار عمل جديد يتجاوز الحدود التقليدية!
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
اكتشافات مذهلة في تقييم نماذج اللغات: تحليل تغيرات موثوقة بشكل غير مسبوق!
أركايف للذكاءمنذ 1 شهر
أبحاث
تحدي Claw-Eval-Live: معايير جديدة لتقييم وكيل الذكاء الاصطناعي في بيئات العمل الواقعية
أركايف للذكاءمنذ 1 شهر
أبحاث
معايير تقييم السلامة في المسارات لوكالة الذكاء الاصطناعي: اكتشفوا ATBench-Claw وATBench-Codex!
أركايف للذكاءمنذ 1 شهر
أبحاث
ثورة تقييم الأداء: إطار مبتكر لتحديد إخفاقات الوكلاء الثلاثي اللغة في الفضاء العام
أركايف للذكاءمنذ 1 شهر
أبحاث
استكشاف التخطيط البصري في نماذج تحرير الصور: ثورة جديدة في الذكاء الاصطناعي!
أركايف للذكاءمنذ 1 شهر
أبحاث
ProEval: إطار مبتكر لاكتشاف الأخطاء وتحسين تقييم الأداء في نماذج الذكاء الاصطناعي التوليدي
أركايف للذكاءمنذ 1 شهر
أبحاث
ثورة في تقنيات الذكاء الاصطناعي: تقييم CUDA Tile لبناء الأنوية على معالجات NVIDIA
أركايف للذكاءمنذ 1 شهر
أبحاث
K-MetBench: الإطار الثوري لتقييم الذكاء الاصطناعي في التنبؤات الجوية الكورية!
أركايف للذكاءمنذ 1 شهر
أبحاث
CFDLLMBench: طراز جديد لتقييم نماذج اللغة الكبيرة في ديناميكا السوائل الحاسوبية
أركايف للذكاءمنذ 1 شهر
أبحاث
كيف تقيم أداء نماذج اللغات الضخمة في مراجعات الأدبيات؟ إليك التوصيات اللازمة!
أركايف للذكاءمنذ 1 شهر
أبحاث
BLAST: ثورة جديدة في تقييم نماذج اللغة الكبيرة باستخدام برمجة مجموعات الإجابة
أركايف للذكاءمنذ 1 شهر
نماذج لغوية
أهم 7 معايير تُعبر عن أداء التفكير الوكيل في نماذج اللغات الضخمة
مارك تيك بوستمنذ 1 شهر
أبحاث
هل تعرف النماذج اللغوية الصغيرة متى تكون مخطئة؟ دراسة جديدة في تقييم الأداء التعليمي
أركايف للذكاءمنذ 1 شهر
أبحاث
تحقيق الثقة في التقييم: كيف تساهم الطبقات الدلالية في تحسين استرجاع المعلومات!
أركايف للذكاءمنذ 1 شهر
