🏷️ #تقييم الذكاء الاصطناعي

69 مقال

Sci-Rho: ثورة جديدة في تقييم نماذج الذكاء الاصطناعي لمشكلات STEM عبر اللغات

Sci-Rho: ثورة جديدة في تقييم نماذج الذكاء الاصطناعي لمشكلات STEM عبر اللغات

أركايف للذكاءمنذ 1 شهر

SLMJury: هل يمكن للنماذج اللغوية الصغيرة التحكيم بنفس كفاءة الكبيرة؟

نماذج لغوية

SLMJury: هل يمكن للنماذج اللغوية الصغيرة التحكيم بنفس كفاءة الكبيرة؟

أركايف للذكاءمنذ 1 شهر

TRL-Bench: الثوري في توحيد تقييم نماذج الترميز الجدولي عبر paradigms المختلفة!

TRL-Bench: الثوري في توحيد تقييم نماذج الترميز الجدولي عبر paradigms المختلفة!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم جودة الذكاء الاصطناعي: استقرار القضاة اللغويين تحت التحديات التفاعلية

ثورة في تقييم جودة الذكاء الاصطناعي: استقرار القضاة اللغويين تحت التحديات التفاعلية

أركايف للذكاءمنذ 1 شهر

تحديات انحياز الذكاء الاصطناعي: كيف يؤثر الجغرافيا على التنوع في تقييم النماذج؟

تحديات انحياز الذكاء الاصطناعي: كيف يؤثر الجغرافيا على التنوع في تقييم النماذج؟

أركايف للذكاءمنذ 1 شهر

$GTBench: المعيار الجديد لتقييم نماذج اللغات الضخمة في مساعدة الأبحاث الرياضية$

GTBench: المعيار الجديد لتقييم نماذج اللغات الضخمة في مساعدة الأبحاث الرياضية

أركايف للذكاءمنذ 1 شهر

TravelEval: إطار مبتكر لتقييم أدوات التخطيط السفرية المدعومة بالذكاء الاصطناعي

TravelEval: إطار مبتكر لتقييم أدوات التخطيط السفرية المدعومة بالذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر

كشف النقاب عن تحيز النماذج النموذجية في تقييم الذكاء الاصطناعي!

كشف النقاب عن تحيز النماذج النموذجية في تقييم الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر

من يقيم التأثيرات الاجتماعية للذكاء الاصطناعي؟ تحليل شامل للفجوات والتغطيات

من يقيم التأثيرات الاجتماعية للذكاء الاصطناعي؟ تحليل شامل للفجوات والتغطيات

أركايف للذكاءمنذ 1 شهر

KnowledgeBerg: كشف حدود الذكاء الاصطناعي في استيعاب المعرفة والتفكير التحليلي

KnowledgeBerg: كشف حدود الذكاء الاصطناعي في استيعاب المعرفة والتفكير التحليلي

أركايف للذكاءمنذ 1 شهر

WorldCoder-Bench: ثورة في قياس تكوين العوالم ثلاثية الأبعاد المستندة إلى الفيزياء!

WorldCoder-Bench: ثورة في قياس تكوين العوالم ثلاثية الأبعاد المستندة إلى الفيزياء!

أركايف للذكاءمنذ 1 شهر

مؤشر AttuneBench: قياس الذكاء العاطفي في النماذج اللغوية الكبرى بطريقة مبتكرة!

مؤشر AttuneBench: قياس الذكاء العاطفي في النماذج اللغوية الكبرى بطريقة مبتكرة!

أركايف للذكاءمنذ 1 شهر

تحديات الذكاء الاصطناعي في البيئات محدودة الموارد: نحو تقييمات أكثر واقعية

تحديات الذكاء الاصطناعي في البيئات محدودة الموارد: نحو تقييمات أكثر واقعية

أركايف للذكاءمنذ 1 شهر

ثورة في تقييمات الذكاء الاصطناعي: اكتشفوا تقنية LURE وتأثيرها المذهل!

ثورة في تقييمات الذكاء الاصطناعي: اكتشفوا تقنية LURE وتأثيرها المذهل!

أركايف للذكاءمنذ 1 شهر

اكتشاف الحلول الجديدة: كيفية تقليل تراجع العناصر في تقييمات الذكاء الاصطناعي

اكتشاف الحلول الجديدة: كيفية تقليل تراجع العناصر في تقييمات الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر

الأمان المرجعي: ثورة جديدة في تقييمات الذكاء الاصطناعي!

أخلاقيات الذكاء الاصطناعي

الأمان المرجعي: ثورة جديدة في تقييمات الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر

تأثير الرسائل المتراكمة: كيف تؤثر المحادثات السابقة على تقييم نماذج اللغة؟

تأثير الرسائل المتراكمة: كيف تؤثر المحادثات السابقة على تقييم نماذج اللغة؟

أركايف للذكاءمنذ 1 شهر

FATHOMS-RAG: إطار تقييم تفكير وملاحظة الأنظمة متعددة الوسائط باستخدام التكنولوجيا المتقدمة

FATHOMS-RAG: إطار تقييم تفكير وملاحظة الأنظمة متعددة الوسائط باستخدام التكنولوجيا المتقدمة

أركايف للذكاءمنذ 1 شهر

التحليل الذكي: ضمانات دقيقة لتقييم وكالات الذكاء الاصطناعي بدون توزيع

التحليل الذكي: ضمانات دقيقة لتقييم وكالات الذكاء الاصطناعي بدون توزيع

أركايف للذكاءمنذ 2 شهر

تقييم الذكاء الاصطناعي المفهومي: ثورة نوعية في قياس الإبداع البشري

تقييم الذكاء الاصطناعي المفهومي: ثورة نوعية في قياس الإبداع البشري

أركايف للذكاءمنذ 2 شهر

← السابق2 / 4التالي →