🏷️ #تقييم

273 مقال

نموذج نظرية الاستجابة الزمنية: تقييم نماذج اللغات الضخمة بدقة الاستجابة وطول سلسلة الأفكار

نماذج لغوية

نموذج نظرية الاستجابة الزمنية: تقييم نماذج اللغات الضخمة بدقة الاستجابة وطول سلسلة الأفكار

أركايف للذكاءمنذ 16 ساعة

IMBench: معايير مبتكرة لتحقيق التلاعب البديهي في الروبوتات

IMBench: معايير مبتكرة لتحقيق التلاعب البديهي في الروبوتات

أركايف للذكاءمنذ 16 ساعة

تحقيق الأداء المثالي: كيف تعيد تقنيات Copy-on-Write تقييم وكالات الذكاء الاصطناعي؟

تحقيق الأداء المثالي: كيف تعيد تقنيات Copy-on-Write تقييم وكالات الذكاء الاصطناعي؟

أركايف للذكاءمنذ 3 يوم

اكتشفوا OmniaBench: معيار ثوري لتقييم وكلاء الذكاء الاصطناعي في سيناريوهات متنوعة!

نماذج لغوية

اكتشفوا OmniaBench: معيار ثوري لتقييم وكلاء الذكاء الاصطناعي في سيناريوهات متنوعة!

أركايف للذكاءمنذ 3 يوم

تجاوز هندسة الألوان: تقييم تمثيلات الألوان البشرية في نماذج الرؤية

تجاوز هندسة الألوان: تقييم تمثيلات الألوان البشرية في نماذج الرؤية

أركايف للذكاءمنذ 4 يوم

فخ الامتثال: كيفية استهلاك وكالات الذكاء الاصطناعي لذاكرة متناقضة

فخ الامتثال: كيفية استهلاك وكالات الذكاء الاصطناعي لذاكرة متناقضة

أركايف للذكاءمنذ 6 يوم

من الزخم إلى الاستقرار: كيف يُقاس ظهور الذكاء الاصطناعي بطريقة موثوقة؟

من الزخم إلى الاستقرار: كيف يُقاس ظهور الذكاء الاصطناعي بطريقة موثوقة؟

أركايف للذكاءمنذ 6 يوم

CRiT-QA: ثورة في تقييم التفكير المتعدد الخطوات لمواجهة الفخاخ المُضللة!

CRiT-QA: ثورة في تقييم التفكير المتعدد الخطوات لمواجهة الفخاخ المُضللة!

أركايف للذكاءمنذ 6 يوم

Imaging-101: ثورة في التقييم وتحسين مهارات النماذج اللغوية في التصوير الحاسوبي!

Imaging-101: ثورة في التقييم وتحسين مهارات النماذج اللغوية في التصوير الحاسوبي!

أركايف للذكاءمنذ 6 يوم

مؤشر حساسية التنسيق: كيف يؤثر اختيار التطبيقات على نتائج نماذج الذكاء الاصطناعي؟

مؤشر حساسية التنسيق: كيف يؤثر اختيار التطبيقات على نتائج نماذج الذكاء الاصطناعي؟

أركايف للذكاءمنذ 6 يوم

اكتشاف النقاط العمياء: تحدي جديد في نماذج الذكاء الاصطناعي متعددة الوسائط

اكتشاف النقاط العمياء: تحدي جديد في نماذج الذكاء الاصطناعي متعددة الوسائط

أركايف للذكاءمنذ 10 يوم

ثورة الذكاء الاصطناعي: كيف يؤثر تغيير القاضي على دقة نموذج الحكم؟

ثورة الذكاء الاصطناعي: كيف يؤثر تغيير القاضي على دقة نموذج الحكم؟

أركايف للذكاءمنذ 10 يوم

TOPO-Bench: ثورة في تقييم الخرائط الطوبولوجية مع مقاييس قابلة للقياس

TOPO-Bench: ثورة في تقييم الخرائط الطوبولوجية مع مقاييس قابلة للقياس

أركايف للذكاءمنذ 10 يوم

ثورة في تقييم أمان الذكاء الاصطناعي: مقياس جديد لقياس شدة الأفعال!

ثورة في تقييم أمان الذكاء الاصطناعي: مقياس جديد لقياس شدة الأفعال!

أركايف للذكاءمنذ 11 يوم

عدم استقرار الانحياز الأخلاقي في نماذج اللغات: كيف يؤثر الإطار على القرارات الأخلاقية؟

أخلاقيات الذكاء الاصطناعي

عدم استقرار الانحياز الأخلاقي في نماذج اللغات: كيف يؤثر الإطار على القرارات الأخلاقية؟

أركايف للذكاءمنذ 11 يوم

هل نستعد لعصر جديد من الذكاء الاصطناعي؟ استكشاف التحسين الذاتي المتكرر!

هل نستعد لعصر جديد من الذكاء الاصطناعي؟ استكشاف التحسين الذاتي المتكرر!

أركايف للذكاءمنذ 11 يوم

تقييم شامل لمخرجات نماذج اللغات الضخمة: نظام تصنيف متعدد العوامل

تقييم شامل لمخرجات نماذج اللغات الضخمة: نظام تصنيف متعدد العوامل

أركايف للذكاءمنذ 11 يوم

إطار تقييم جديد للذكاء الاصطناعي: كيف يمكن لنماذج اللغات الضخمة إنتاج مصفوفات بنية التصميم؟

إطار تقييم جديد للذكاء الاصطناعي: كيف يمكن لنماذج اللغات الضخمة إنتاج مصفوفات بنية التصميم؟

أركايف للذكاءمنذ 12 يوم

ثورة جديدة في الذكاء الاصطناعي: أداة RuBench للتقييم الذكي بلغة روسية!

ثورة جديدة في الذكاء الاصطناعي: أداة RuBench للتقييم الذكي بلغة روسية!

أركايف للذكاءمنذ 12 يوم

هل يمكن للذكاء الاصطناعي أن يقدم إجابات موثوقة؟ دراسة تكشف العلاقة بين نوع السؤال وموثوقية النماذج اللغوية!

هل يمكن للذكاء الاصطناعي أن يقدم إجابات موثوقة؟ دراسة تكشف العلاقة بين نوع السؤال وموثوقية النماذج اللغوية!

أركايف للذكاءمنذ 12 يوم

1 / 14التالي →