🏷️ #تقييم

274 مقال

إعادة التفكير في تقييم دور اللعب: تقنيات جديدة لتجاوز قيود الشخصية

إعادة التفكير في تقييم دور اللعب: تقنيات جديدة لتجاوز قيود الشخصية

أركايف للذكاءمنذ 21 يوم

هل يمكن للذكاء الاصطناعي تقييم الإبداع البشري؟ تعرف على معيار الإبداع البشري!

هل يمكن للذكاء الاصطناعي تقييم الإبداع البشري؟ تعرف على معيار الإبداع البشري!

أركايف للذكاءمنذ 21 يوم

تطور جديد في أمان نماذج الذكاء الاصطناعي: Introducing CASE-Bench!

تطور جديد في أمان نماذج الذكاء الاصطناعي: Introducing CASE-Bench!

أركايف للذكاءمنذ 21 يوم

DMind Benchmark: تقييم شامل لجهود نماذج اللغات الضخمة في عالم Web3

DMind Benchmark: تقييم شامل لجهود نماذج اللغات الضخمة في عالم Web3

أركايف للذكاءمنذ 22 يوم

استخدم الأسئلة الثنائية لتحسين تقييم نماذج اللغات الضخمة: المشروع الثوري BINEVAL!

استخدم الأسئلة الثنائية لتحسين تقييم نماذج اللغات الضخمة: المشروع الثوري BINEVAL!

أركايف للذكاءمنذ 25 يوم

WatchAct: الثورية في تقييم سلوك الروبوتات وطرق التلاعب

WatchAct: الثورية في تقييم سلوك الروبوتات وطرق التلاعب

أركايف للذكاءمنذ 25 يوم

scBench-Long: الثورة في تقييمات علم الأحياء الخلوية على المدى الطويل!

scBench-Long: الثورة في تقييمات علم الأحياء الخلوية على المدى الطويل!

أركايف للذكاءمنذ 25 يوم

تقييم مبتكر لتحسين توصيات الذكاء الاصطناعي لنماذج لغوية حول مرض السكري من النوع الثاني!

تقييم مبتكر لتحسين توصيات الذكاء الاصطناعي لنماذج لغوية حول مرض السكري من النوع الثاني!

أركايف للذكاءمنذ 27 يوم

كسر المرآة: التخفيف من انحياز التفضيل الذاتي في نماذج اللغة الكبيرة

كسر المرآة: التخفيف من انحياز التفضيل الذاتي في نماذج اللغة الكبيرة

أركايف للذكاءمنذ 27 يوم

اكتشف درجاتك في الذكاء الاصطناعي مع إين ذا وييتس! 📊

اكتشف درجاتك في الذكاء الاصطناعي مع إين ذا وييتس! 📊

تيك كرانشمنذ 1 شهر

AURA: ابتكار ثوري في تصحيح قاضي الذكاء الاصطناعي من خلال فحص عدم اليقين

AURA: ابتكار ثوري في تصحيح قاضي الذكاء الاصطناعي من خلال فحص عدم اليقين

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم نماذج اللغة: QMFOL تعيد تعريف المنطق الاستدلالي!

ثورة في تقييم نماذج اللغة: QMFOL تعيد تعريف المنطق الاستدلالي!

أركايف للذكاءمنذ 1 شهر

شاهد كيف تغير RTSGameBench طريقة تقييم الذكاء الاستراتيجي في الألعاب!

شاهد كيف تغير RTSGameBench طريقة تقييم الذكاء الاستراتيجي في الألعاب!

أركايف للذكاءمنذ 1 شهر

ثورة في تقييم الملاحظات المجتمعية: نموذج متعدد الوكلاء يغيّر قواعد اللعبة!

ثورة في تقييم الملاحظات المجتمعية: نموذج متعدد الوكلاء يغيّر قواعد اللعبة!

أركايف للذكاءمنذ 1 شهر

WebSP-Eval: ثورة جديدة في تقييم أداء الوكلاء عبر الإنترنت في مهام الأمان والخصوصية!

WebSP-Eval: ثورة جديدة في تقييم أداء الوكلاء عبر الإنترنت في مهام الأمان والخصوصية!

أركايف للذكاءمنذ 1 شهر

استخدام نماذج لغوية ضخمة كقضاة في التعليم: مسار تقييم يعتمد على المناهج الدراسية

استخدام نماذج لغوية ضخمة كقضاة في التعليم: مسار تقييم يعتمد على المناهج الدراسية

أركايف للذكاءمنذ 1 شهر

SEAGym: بيئة تقييم مبتكرة لوكلاء LLM القابلين للتطور الذاتي

SEAGym: بيئة تقييم مبتكرة لوكلاء LLM القابلين للتطور الذاتي

أركايف للذكاءمنذ 1 شهر

DeepInsight: ثورة في تقييم مجموعات الذكاء الاصطناعي المدمجة

DeepInsight: ثورة في تقييم مجموعات الذكاء الاصطناعي المدمجة

أركايف للذكاءمنذ 1 شهر

EComAgentBench: ثورة في تقييم وكالات التسوق الذكي عبر مهام طويلة الأمد!

EComAgentBench: ثورة في تقييم وكالات التسوق الذكي عبر مهام طويلة الأمد!

أركايف للذكاءمنذ 1 شهر

اكتشاف Mask-Proof: ثورة جديدة في تقييم إثباتات الرياضيات باستخدام نماذج الذكاء الاصطناعي!

اكتشاف Mask-Proof: ثورة جديدة في تقييم إثباتات الرياضيات باستخدام نماذج الذكاء الاصطناعي!

أركايف للذكاءمنذ 1 شهر

← السابق3 / 14التالي →