Ailoxa Logo

🏷️ #تقييم

177 مقال

TowerMind: بيئة جديدة للألعاب الدفاعية تثبت قوة نماذج اللغات الكبيرة كعملاء ذكيين!
أبحاث

TowerMind: بيئة جديدة للألعاب الدفاعية تثبت قوة نماذج اللغات الكبيرة كعملاء ذكيين!

أركايف للذكاءمنذ 9 يوم
ثورة جديدة في الذكاء الاصطناعي: تقييم واقعية الفيزياء في نماذج الفيديو من النصوص!
أبحاث

ثورة جديدة في الذكاء الاصطناعي: تقييم واقعية الفيزياء في نماذج الفيديو من النصوص!

أركايف للذكاءمنذ 9 يوم
فخ الإجابة الصحيحة: كيف تخفق أنظمة التعليم الذكية في تقييم تفكير الطلاب؟
أبحاث

فخ الإجابة الصحيحة: كيف تخفق أنظمة التعليم الذكية في تقييم تفكير الطلاب؟

أركايف للذكاءمنذ 10 يوم
كشف النقاب عن ChaosBench-Logic v2: تقييم تفكير LLMs في الأنظمة الديناميكية
أبحاث

كشف النقاب عن ChaosBench-Logic v2: تقييم تفكير LLMs في الأنظمة الديناميكية

أركايف للذكاءمنذ 10 يوم
ضرورة توفير بيانات قياسية لتقييم الذكاء الاصطناعي: نحو بنية تحتية موحدة!
أبحاث

ضرورة توفير بيانات قياسية لتقييم الذكاء الاصطناعي: نحو بنية تحتية موحدة!

أركايف للذكاءمنذ 11 يوم
ثورة في تقييم وكالات البرمجة: اكتشفوا ProcBench وما يحمله من ابتكار!
أبحاث

ثورة في تقييم وكالات البرمجة: اكتشفوا ProcBench وما يحمله من ابتكار!

أركايف للذكاءمنذ 14 يوم
اختيار نقاط التحقق الفعّالة لنماذج اللغات متعددة الوسائط عبر تقييم ديناميكي وترتيب مدروس
نماذج لغوية

اختيار نقاط التحقق الفعّالة لنماذج اللغات متعددة الوسائط عبر تقييم ديناميكي وترتيب مدروس

أركايف للذكاءمنذ 16 يوم
ثورة في التفكير الرياضي: كيف تغيّر نماذج اللغة الضخمة (LLMs) مستقبل الذكاء الاصطناعي؟
أبحاث

ثورة في التفكير الرياضي: كيف تغيّر نماذج اللغة الضخمة (LLMs) مستقبل الذكاء الاصطناعي؟

أركايف للذكاءمنذ 16 يوم
كيف يمكن أن تتحصن مجموعات البيانات المرجعية ضد التلوث؟
أبحاث

كيف يمكن أن تتحصن مجموعات البيانات المرجعية ضد التلوث؟

أركايف للذكاءمنذ 16 يوم
CAREBench: الاختبار الثوري لفهم المشاعر في نماذج الذكاء الاصطناعي!
أبحاث

CAREBench: الاختبار الثوري لفهم المشاعر في نماذج الذكاء الاصطناعي!

أركايف للذكاءمنذ 17 يوم
SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي
أبحاث

SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي

أركايف للذكاءمنذ 17 يوم
ثورة جديدة في قياس صعوبة الأسئلة: نموذج بدون استجابة باستخدام التحويلات المتقدمة!
أبحاث

ثورة جديدة في قياس صعوبة الأسئلة: نموذج بدون استجابة باستخدام التحويلات المتقدمة!

أركايف للذكاءمنذ 17 يوم
الذكاء الاصطناعي في قياس صعوبة الاختبارات: خبراء جدد في عالم التعلم!
أبحاث

الذكاء الاصطناعي في قياس صعوبة الاختبارات: خبراء جدد في عالم التعلم!

أركايف للذكاءمنذ 17 يوم
AgroCoT: معيار مبتكر لتقييم التفكير المنطقي في نماذج الرؤية واللغة في الزراعة
أبحاث

AgroCoT: معيار مبتكر لتقييم التفكير المنطقي في نماذج الرؤية واللغة في الزراعة

أركايف للذكاءمنذ 17 يوم
تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!
أبحاث

تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!

أركايف للذكاءمنذ 17 يوم
تفكيك كفاءة التفكير في نماذج لغوية ضخمة: ما وراء دقة النتائج!
أبحاث

تفكيك كفاءة التفكير في نماذج لغوية ضخمة: ما وراء دقة النتائج!

أركايف للذكاءمنذ 17 يوم
LEAP: كيف تقيم كفاءة التعلم في نماذج الذكاء الاصطناعي لتعزيز التصميم العلمي
أبحاث

LEAP: كيف تقيم كفاءة التعلم في نماذج الذكاء الاصطناعي لتعزيز التصميم العلمي

أركايف للذكاءمنذ 18 يوم
هل يكفي تقييم واحد؟ إعادة التفكير في تقييم ذاكرة نماذج اللغات الضخمة المتطورة

هل يكفي تقييم واحد؟ إعادة التفكير في تقييم ذاكرة نماذج اللغات الضخمة المتطورة

أركايف للذكاءمنذ 18 يوم
HAI-Eval: قياس تناغم البشر والذكاء الاصطناعي في البرمجة التعاونية
أبحاث

HAI-Eval: قياس تناغم البشر والذكاء الاصطناعي في البرمجة التعاونية

أركايف للذكاءمنذ 18 يوم
شكرًا ل ChromaFlow: دراسة مبتكرة تكشف النقاب عن تحديات تقييم الوكلاء المدعومين بالأدوات
أبحاث

شكرًا ل ChromaFlow: دراسة مبتكرة تكشف النقاب عن تحديات تقييم الوكلاء المدعومين بالأدوات

أركايف للذكاءمنذ 21 يوم