🏷️ #تقييم

275 مقال

فخ الإجابة الصحيحة: كيف تخفق أنظمة التعليم الذكية في تقييم تفكير الطلاب؟

فخ الإجابة الصحيحة: كيف تخفق أنظمة التعليم الذكية في تقييم تفكير الطلاب؟

أركايف للذكاءمنذ 1 شهر

ضرورة توفير بيانات قياسية لتقييم الذكاء الاصطناعي: نحو بنية تحتية موحدة!

ضرورة توفير بيانات قياسية لتقييم الذكاء الاصطناعي: نحو بنية تحتية موحدة!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم وكالات البرمجة: اكتشفوا ProcBench وما يحمله من ابتكار!

ثورة في تقييم وكالات البرمجة: اكتشفوا ProcBench وما يحمله من ابتكار!

أركايف للذكاءمنذ 2 شهر

كيف يمكن أن تتحصن مجموعات البيانات المرجعية ضد التلوث؟

كيف يمكن أن تتحصن مجموعات البيانات المرجعية ضد التلوث؟

أركايف للذكاءمنذ 2 شهر

ثورة في التفكير الرياضي: كيف تغيّر نماذج اللغة الضخمة (LLMs) مستقبل الذكاء الاصطناعي؟

ثورة في التفكير الرياضي: كيف تغيّر نماذج اللغة الضخمة (LLMs) مستقبل الذكاء الاصطناعي؟

أركايف للذكاءمنذ 2 شهر

اختيار نقاط التحقق الفعّالة لنماذج اللغات متعددة الوسائط عبر تقييم ديناميكي وترتيب مدروس

نماذج لغوية

اختيار نقاط التحقق الفعّالة لنماذج اللغات متعددة الوسائط عبر تقييم ديناميكي وترتيب مدروس

أركايف للذكاءمنذ 2 شهر

SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي

SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي

أركايف للذكاءمنذ 2 شهر

تفكيك كفاءة التفكير في نماذج لغوية ضخمة: ما وراء دقة النتائج!

تفكيك كفاءة التفكير في نماذج لغوية ضخمة: ما وراء دقة النتائج!

أركايف للذكاءمنذ 2 شهر

تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!

تقييم نماذج اللغة الكبيرة: قفزة في فهم سلوكيات الفئران من خلال CheeseBench!

أركايف للذكاءمنذ 2 شهر

AgroCoT: معيار مبتكر لتقييم التفكير المنطقي في نماذج الرؤية واللغة في الزراعة

AgroCoT: معيار مبتكر لتقييم التفكير المنطقي في نماذج الرؤية واللغة في الزراعة

أركايف للذكاءمنذ 2 شهر

الذكاء الاصطناعي في قياس صعوبة الاختبارات: خبراء جدد في عالم التعلم!

الذكاء الاصطناعي في قياس صعوبة الاختبارات: خبراء جدد في عالم التعلم!

أركايف للذكاءمنذ 2 شهر

ثورة جديدة في قياس صعوبة الأسئلة: نموذج بدون استجابة باستخدام التحويلات المتقدمة!

ثورة جديدة في قياس صعوبة الأسئلة: نموذج بدون استجابة باستخدام التحويلات المتقدمة!

أركايف للذكاءمنذ 2 شهر

CAREBench: الاختبار الثوري لفهم المشاعر في نماذج الذكاء الاصطناعي!

CAREBench: الاختبار الثوري لفهم المشاعر في نماذج الذكاء الاصطناعي!

أركايف للذكاءمنذ 2 شهر

هل يكفي تقييم واحد؟ إعادة التفكير في تقييم ذاكرة نماذج اللغات الضخمة المتطورة

هل يكفي تقييم واحد؟ إعادة التفكير في تقييم ذاكرة نماذج اللغات الضخمة المتطورة

أركايف للذكاءمنذ 2 شهر

HAI-Eval: قياس تناغم البشر والذكاء الاصطناعي في البرمجة التعاونية

HAI-Eval: قياس تناغم البشر والذكاء الاصطناعي في البرمجة التعاونية

أركايف للذكاءمنذ 2 شهر

LEAP: كيف تقيم كفاءة التعلم في نماذج الذكاء الاصطناعي لتعزيز التصميم العلمي

LEAP: كيف تقيم كفاءة التعلم في نماذج الذكاء الاصطناعي لتعزيز التصميم العلمي

أركايف للذكاءمنذ 2 شهر

تجارة الماشية: معيار متعدد الوكلاء لتقييم قدرات نماذج اللغة الكبيرة في استراتيجيات المقامرة والمساومة

تجارة الماشية: معيار متعدد الوكلاء لتقييم قدرات نماذج اللغة الكبيرة في استراتيجيات المقامرة والمساومة

أركايف للذكاءمنذ 2 شهر

ثورة في مقاييس تقييم نماذج الذكاء الاصطناعي: كيفية تشكيل الثقافة من خلال المعايير

ثورة في مقاييس تقييم نماذج الذكاء الاصطناعي: كيفية تشكيل الثقافة من خلال المعايير

أركايف للذكاءمنذ 2 شهر

شكرًا ل ChromaFlow: دراسة مبتكرة تكشف النقاب عن تحديات تقييم الوكلاء المدعومين بالأدوات

شكرًا ل ChromaFlow: دراسة مبتكرة تكشف النقاب عن تحديات تقييم الوكلاء المدعومين بالأدوات

أركايف للذكاءمنذ 2 شهر

تحسين وتقييم خرائط الخصائص التفسيرية للذكاء الاصطناعي: طُرق مبتكرة ونتائج مبهرة!

تحسين وتقييم خرائط الخصائص التفسيرية للذكاء الاصطناعي: طُرق مبتكرة ونتائج مبهرة!

أركايف للذكاءمنذ 2 شهر

← السابق8 / 14التالي →