Ailoxa Logo

🏷️ #تقييم الذكاء الاصطناعي

41 مقال

GTBench: المعيار الجديد لتقييم نماذج اللغات الضخمة في مساعدة الأبحاث الرياضية
أبحاث

GTBench: المعيار الجديد لتقييم نماذج اللغات الضخمة في مساعدة الأبحاث الرياضية

أركايف للذكاءمنذ 2 يوم
TravelEval: إطار مبتكر لتقييم أدوات التخطيط السفرية المدعومة بالذكاء الاصطناعي
أبحاث

TravelEval: إطار مبتكر لتقييم أدوات التخطيط السفرية المدعومة بالذكاء الاصطناعي

أركايف للذكاءمنذ 3 يوم
WorldCoder-Bench: ثورة في قياس تكوين العوالم ثلاثية الأبعاد المستندة إلى الفيزياء!
أبحاث

WorldCoder-Bench: ثورة في قياس تكوين العوالم ثلاثية الأبعاد المستندة إلى الفيزياء!

أركايف للذكاءمنذ 3 يوم
مؤشر AttuneBench: قياس الذكاء العاطفي في النماذج اللغوية الكبرى بطريقة مبتكرة!
أبحاث

مؤشر AttuneBench: قياس الذكاء العاطفي في النماذج اللغوية الكبرى بطريقة مبتكرة!

أركايف للذكاءمنذ 7 يوم
تحديات الذكاء الاصطناعي في البيئات محدودة الموارد: نحو تقييمات أكثر واقعية
أبحاث

تحديات الذكاء الاصطناعي في البيئات محدودة الموارد: نحو تقييمات أكثر واقعية

أركايف للذكاءمنذ 8 يوم
اكتشاف الحلول الجديدة: كيفية تقليل تراجع العناصر في تقييمات الذكاء الاصطناعي
أدوات

اكتشاف الحلول الجديدة: كيفية تقليل تراجع العناصر في تقييمات الذكاء الاصطناعي

أركايف للذكاءمنذ 9 يوم
ثورة في تقييمات الذكاء الاصطناعي: اكتشفوا تقنية LURE وتأثيرها المذهل!
أبحاث

ثورة في تقييمات الذكاء الاصطناعي: اكتشفوا تقنية LURE وتأثيرها المذهل!

أركايف للذكاءمنذ 9 يوم
الأمان المرجعي: ثورة جديدة في تقييمات الذكاء الاصطناعي!
أخلاقيات الذكاء الاصطناعي

الأمان المرجعي: ثورة جديدة في تقييمات الذكاء الاصطناعي!

أركايف للذكاءمنذ 10 يوم
تأثير الرسائل المتراكمة: كيف تؤثر المحادثات السابقة على تقييم نماذج اللغة؟
أبحاث

تأثير الرسائل المتراكمة: كيف تؤثر المحادثات السابقة على تقييم نماذج اللغة؟

أركايف للذكاءمنذ 10 يوم
FATHOMS-RAG: إطار تقييم تفكير وملاحظة الأنظمة متعددة الوسائط باستخدام التكنولوجيا المتقدمة
أبحاث

FATHOMS-RAG: إطار تقييم تفكير وملاحظة الأنظمة متعددة الوسائط باستخدام التكنولوجيا المتقدمة

أركايف للذكاءمنذ 11 يوم
التحليل الذكي: ضمانات دقيقة لتقييم وكالات الذكاء الاصطناعي بدون توزيع
أبحاث

التحليل الذكي: ضمانات دقيقة لتقييم وكالات الذكاء الاصطناعي بدون توزيع

أركايف للذكاءمنذ 16 يوم
تقييم الذكاء الاصطناعي المفهومي: ثورة نوعية في قياس الإبداع البشري
أبحاث

تقييم الذكاء الاصطناعي المفهومي: ثورة نوعية في قياس الإبداع البشري

أركايف للذكاءمنذ 17 يوم
QSTRBench: معيار جديد لتقييم قدرة نماذج اللغة على التفكير المكاني والزماني النوعي!
أبحاث

QSTRBench: معيار جديد لتقييم قدرة نماذج اللغة على التفكير المكاني والزماني النوعي!

أركايف للذكاءمنذ 17 يوم
GVGAI-LLM: ثورة جديدة في تقييم نماذج اللغة الكبيرة من خلال الألعاب الفيديو!
أبحاث

GVGAI-LLM: ثورة جديدة في تقييم نماذج اللغة الكبيرة من خلال الألعاب الفيديو!

أركايف للذكاءمنذ 17 يوم
هل تقيمات الذكاء الاصطناعي فعالة؟ دعونا نتحدث عن الأسس العلمية!
أبحاث

هل تقيمات الذكاء الاصطناعي فعالة؟ دعونا نتحدث عن الأسس العلمية!

أركايف للذكاءمنذ 17 يوم
ثورة في تقييم الذكاء الاصطناعي: ProfBench وتحديات جديدة للذكاء الاصطناعي الخارق
أبحاث

ثورة في تقييم الذكاء الاصطناعي: ProfBench وتحديات جديدة للذكاء الاصطناعي الخارق

أركايف للذكاءمنذ 17 يوم
من الإرشادات إلى الضمانات: أدوات تقييم مبتكرة لاختبار نماذج اللغة المتخصصة
أبحاث

من الإرشادات إلى الضمانات: أدوات تقييم مبتكرة لاختبار نماذج اللغة المتخصصة

أركايف للذكاءمنذ 18 يوم
فخ التقييم: كيف تؤثر المعايير على فهم قدرات الذكاء الاصطناعي؟
أبحاث

فخ التقييم: كيف تؤثر المعايير على فهم قدرات الذكاء الاصطناعي؟

أركايف للذكاءمنذ 21 يوم
اكتشاف أبعاد جديدة: تقييم مسارات التفكير لوكلاء معززين بالأدوات
أبحاث

اكتشاف أبعاد جديدة: تقييم مسارات التفكير لوكلاء معززين بالأدوات

أركايف للذكاءمنذ 21 يوم
إعادة تصور تقييم الرسوم البيانية الزمنية: الإطار الثوري المعتمد على الجاذبية!
أبحاث

إعادة تصور تقييم الرسوم البيانية الزمنية: الإطار الثوري المعتمد على الجاذبية!

أركايف للذكاءمنذ 22 يوم