🏷️ #تقييم
177 مقال
أبحاث
TowerMind: بيئة جديدة للألعاب الدفاعية تثبت قوة نماذج اللغات الكبيرة كعملاء ذكيين!
أركايف للذكاءمنذ 9 يوم
أبحاث
ثورة جديدة في الذكاء الاصطناعي: تقييم واقعية الفيزياء في نماذج الفيديو من النصوص!
أركايف للذكاءمنذ 9 يوم
أبحاث
فخ الإجابة الصحيحة: كيف تخفق أنظمة التعليم الذكية في تقييم تفكير الطلاب؟
أركايف للذكاءمنذ 10 يوم
أبحاث
كشف النقاب عن ChaosBench-Logic v2: تقييم تفكير LLMs في الأنظمة الديناميكية
أركايف للذكاءمنذ 10 يوم
أبحاث
ضرورة توفير بيانات قياسية لتقييم الذكاء الاصطناعي: نحو بنية تحتية موحدة!
أركايف للذكاءمنذ 11 يوم
أبحاث
ثورة في تقييم وكالات البرمجة: اكتشفوا ProcBench وما يحمله من ابتكار!
أركايف للذكاءمنذ 14 يوم
نماذج لغوية
اختيار نقاط التحقق الفعّالة لنماذج اللغات متعددة الوسائط عبر تقييم ديناميكي وترتيب مدروس
أركايف للذكاءمنذ 16 يوم
أبحاث
ثورة في التفكير الرياضي: كيف تغيّر نماذج اللغة الضخمة (LLMs) مستقبل الذكاء الاصطناعي؟
أركايف للذكاءمنذ 16 يوم
أبحاث
كيف يمكن أن تتحصن مجموعات البيانات المرجعية ضد التلوث؟
أركايف للذكاءمنذ 16 يوم
أبحاث
CAREBench: الاختبار الثوري لفهم المشاعر في نماذج الذكاء الاصطناعي!
أركايف للذكاءمنذ 17 يوم
أبحاث
SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي
أركايف للذكاءمنذ 17 يوم
أبحاث
ثورة جديدة في قياس صعوبة الأسئلة: نموذج بدون استجابة باستخدام التحويلات المتقدمة!
أركايف للذكاءمنذ 17 يوم
أبحاث
الذكاء الاصطناعي في قياس صعوبة الاختبارات: خبراء جدد في عالم التعلم!
أركايف للذكاءمنذ 17 يوم
أبحاث
AgroCoT: معيار مبتكر لتقييم التفكير المنطقي في نماذج الرؤية واللغة في الزراعة
أركايف للذكاءمنذ 17 يوم
أبحاث
تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!
أركايف للذكاءمنذ 17 يوم
أبحاث
تفكيك كفاءة التفكير في نماذج لغوية ضخمة: ما وراء دقة النتائج!
أركايف للذكاءمنذ 17 يوم
أبحاث
LEAP: كيف تقيم كفاءة التعلم في نماذج الذكاء الاصطناعي لتعزيز التصميم العلمي
أركايف للذكاءمنذ 18 يوم
هل يكفي تقييم واحد؟ إعادة التفكير في تقييم ذاكرة نماذج اللغات الضخمة المتطورة
أركايف للذكاءمنذ 18 يوم
أبحاث
HAI-Eval: قياس تناغم البشر والذكاء الاصطناعي في البرمجة التعاونية
أركايف للذكاءمنذ 18 يوم
أبحاث
شكرًا ل ChromaFlow: دراسة مبتكرة تكشف النقاب عن تحديات تقييم الوكلاء المدعومين بالأدوات
أركايف للذكاءمنذ 21 يوم
