Ailoxa Logo

🏷️ #تقييم الأداء

98 مقال

ثورة الذكاء الاصطناعي في الألعاب: تقييم محتوى لعبة الجري اللانهائي باستخدام وكلاء ذاتية
أبحاث

ثورة الذكاء الاصطناعي في الألعاب: تقييم محتوى لعبة الجري اللانهائي باستخدام وكلاء ذاتية

أركايف للذكاءمنذ 1 شهر
EngiBench: المعيار الثوري لتقييم نماذج اللغة الكبيرة في حل المشكلات الهندسية!
أبحاث

EngiBench: المعيار الثوري لتقييم نماذج اللغة الكبيرة في حل المشكلات الهندسية!

أركايف للذكاءمنذ 1 شهر
ثقة كبيرة في الذكاء الاصطناعي: كيف تؤثر طريقة التفكير على أداء نماذج اللغات الضخمة؟
أبحاث

ثقة كبيرة في الذكاء الاصطناعي: كيف تؤثر طريقة التفكير على أداء نماذج اللغات الضخمة؟

أركايف للذكاءمنذ 1 شهر
استراتيجيات مبتكرة لتحسين المساعدين الافتراضيين في التسوق عبر الذكاء الاصطناعي
روبوتات

استراتيجيات مبتكرة لتحسين المساعدين الافتراضيين في التسوق عبر الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر
كيف يفهم GPT-4o الرؤية؟ تقييم النماذج متعددة الوسائط في مهام الرؤية الحاسوبية
أبحاث

كيف يفهم GPT-4o الرؤية؟ تقييم النماذج متعددة الوسائط في مهام الرؤية الحاسوبية

أركايف للذكاءمنذ 1 شهر
تحديات تقييم نظام تحويل النصوص إلى استعلامات SQL: إطار عمل جديد يتجاوز الحدود التقليدية!
أدوات

تحديات تقييم نظام تحويل النصوص إلى استعلامات SQL: إطار عمل جديد يتجاوز الحدود التقليدية!

أركايف للذكاءمنذ 1 شهر
اكتشافات مذهلة في تقييم نماذج اللغات: تحليل تغيرات موثوقة بشكل غير مسبوق!
نماذج لغوية

اكتشافات مذهلة في تقييم نماذج اللغات: تحليل تغيرات موثوقة بشكل غير مسبوق!

أركايف للذكاءمنذ 1 شهر
تحدي Claw-Eval-Live: معايير جديدة لتقييم وكيل الذكاء الاصطناعي في بيئات العمل الواقعية
أبحاث

تحدي Claw-Eval-Live: معايير جديدة لتقييم وكيل الذكاء الاصطناعي في بيئات العمل الواقعية

أركايف للذكاءمنذ 1 شهر
معايير تقييم السلامة في المسارات لوكالة الذكاء الاصطناعي: اكتشفوا ATBench-Claw وATBench-Codex!
أبحاث

معايير تقييم السلامة في المسارات لوكالة الذكاء الاصطناعي: اكتشفوا ATBench-Claw وATBench-Codex!

أركايف للذكاءمنذ 1 شهر
ثورة تقييم الأداء: إطار مبتكر لتحديد إخفاقات الوكلاء الثلاثي اللغة في الفضاء العام
أبحاث

ثورة تقييم الأداء: إطار مبتكر لتحديد إخفاقات الوكلاء الثلاثي اللغة في الفضاء العام

أركايف للذكاءمنذ 1 شهر
استكشاف التخطيط البصري في نماذج تحرير الصور: ثورة جديدة في الذكاء الاصطناعي!
أبحاث

استكشاف التخطيط البصري في نماذج تحرير الصور: ثورة جديدة في الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر
ProEval: إطار مبتكر لاكتشاف الأخطاء وتحسين تقييم الأداء في نماذج الذكاء الاصطناعي التوليدي
أبحاث

ProEval: إطار مبتكر لاكتشاف الأخطاء وتحسين تقييم الأداء في نماذج الذكاء الاصطناعي التوليدي

أركايف للذكاءمنذ 1 شهر
ثورة في تقنيات الذكاء الاصطناعي: تقييم CUDA Tile لبناء الأنوية على معالجات NVIDIA
أبحاث

ثورة في تقنيات الذكاء الاصطناعي: تقييم CUDA Tile لبناء الأنوية على معالجات NVIDIA

أركايف للذكاءمنذ 1 شهر
K-MetBench: الإطار الثوري لتقييم الذكاء الاصطناعي في التنبؤات الجوية الكورية!
أبحاث

K-MetBench: الإطار الثوري لتقييم الذكاء الاصطناعي في التنبؤات الجوية الكورية!

أركايف للذكاءمنذ 1 شهر
CFDLLMBench: طراز جديد لتقييم نماذج اللغة الكبيرة في ديناميكا السوائل الحاسوبية
أبحاث

CFDLLMBench: طراز جديد لتقييم نماذج اللغة الكبيرة في ديناميكا السوائل الحاسوبية

أركايف للذكاءمنذ 1 شهر
كيف تقيم أداء نماذج اللغات الضخمة في مراجعات الأدبيات؟ إليك التوصيات اللازمة!
أبحاث

كيف تقيم أداء نماذج اللغات الضخمة في مراجعات الأدبيات؟ إليك التوصيات اللازمة!

أركايف للذكاءمنذ 1 شهر
BLAST: ثورة جديدة في تقييم نماذج اللغة الكبيرة باستخدام برمجة مجموعات الإجابة
أبحاث

BLAST: ثورة جديدة في تقييم نماذج اللغة الكبيرة باستخدام برمجة مجموعات الإجابة

أركايف للذكاءمنذ 1 شهر
أهم 7 معايير تُعبر عن أداء التفكير الوكيل في نماذج اللغات الضخمة
نماذج لغوية

أهم 7 معايير تُعبر عن أداء التفكير الوكيل في نماذج اللغات الضخمة

مارك تيك بوستمنذ 1 شهر
هل تعرف النماذج اللغوية الصغيرة متى تكون مخطئة؟ دراسة جديدة في تقييم الأداء التعليمي
أبحاث

هل تعرف النماذج اللغوية الصغيرة متى تكون مخطئة؟ دراسة جديدة في تقييم الأداء التعليمي

أركايف للذكاءمنذ 1 شهر
تحقيق الثقة في التقييم: كيف تساهم الطبقات الدلالية في تحسين استرجاع المعلومات!
أبحاث

تحقيق الثقة في التقييم: كيف تساهم الطبقات الدلالية في تحسين استرجاع المعلومات!

أركايف للذكاءمنذ 1 شهر