🏷️ #معايير تقييم

53 مقال

استكشف InvestPhilBench: المعيار الثوري لتقييم نماذج اللغات الكبيرة في فلسفة الاستثمار

استكشف InvestPhilBench: المعيار الثوري لتقييم نماذج اللغات الكبيرة في فلسفة الاستثمار

أركايف للذكاءمنذ 10 يوم

تحليل جديد يكشف نقاط ضعف مثيرة في معايير تقييم البرمجة

تحليل جديد يكشف نقاط ضعف مثيرة في معايير تقييم البرمجة

مدونة أوبن إيه آيمنذ 11 يوم

تحديات الذكاء الاصطناعي: تقييم نماذج اللغة الضخمة ضمن تعقيدات البيانات الحقيقية

تحديات الذكاء الاصطناعي: تقييم نماذج اللغة الضخمة ضمن تعقيدات البيانات الحقيقية

أركايف للذكاءمنذ 12 يوم

MMBench-Live: الثورة في تقييم النماذج متعددة الوسائط!

MMBench-Live: الثورة في تقييم النماذج متعددة الوسائط!

أركايف للذكاءمنذ 17 يوم

التقييم الزمني للذكاء الاصطناعي في فيديوهات الطب: تعرف على MedStreamBench!

التقييم الزمني للذكاء الاصطناعي في فيديوهات الطب: تعرف على MedStreamBench!

أركايف للذكاءمنذ 17 يوم

GameDevBench: تقييم قدرات الوكلاء في تطوير الألعاب!

GameDevBench: تقييم قدرات الوكلاء في تطوير الألعاب!

أركايف للذكاءمنذ 18 يوم

اكتشاف ثورة في الذكاء الاصطناعي مع EgoGapBench: معيار جديد لفهم الاختيار الإنساني في المشاهد متعددة الوكلاء!

اكتشاف ثورة في الذكاء الاصطناعي مع EgoGapBench: معيار جديد لفهم الاختيار الإنساني في المشاهد متعددة الوكلاء!

أركايف للذكاءمنذ 18 يوم

RigorBench: ثورة في قياس الانضباط العلمي لعملاء الذكاء الاصطناعي في البرمجة

RigorBench: ثورة في قياس الانضباط العلمي لعملاء الذكاء الاصطناعي في البرمجة

أركايف للذكاءمنذ 19 يوم

MECoBench: طفرة جديدة في التعاون بين الوكلاء المُجسدين في بيئات متعددة الوسائط!

MECoBench: طفرة جديدة في التعاون بين الوكلاء المُجسدين في بيئات متعددة الوسائط!

أركايف للذكاءمنذ 19 يوم

DSH-Bench: معيار ثوري لتقييم توليد الصور من النصوص مع فهم عميق للموضوعات!

DSH-Bench: معيار ثوري لتقييم توليد الصور من النصوص مع فهم عميق للموضوعات!

أركايف للذكاءمنذ 19 يوم

مؤشر جديد لكشف فشل نماذج الذكاء الاصطناعي في ضمان سلامة الرعاية الصحية!

مؤشر جديد لكشف فشل نماذج الذكاء الاصطناعي في ضمان سلامة الرعاية الصحية!

أركايف للذكاءمنذ 20 يوم

سيرجفلا-بنش: أول معيار لتقييم نماذج الذكاء الاصطناعي في جراحة المنظار!

سيرجفلا-بنش: أول معيار لتقييم نماذج الذكاء الاصطناعي في جراحة المنظار!

أركايف للذكاءمنذ 20 يوم

إطلاق SciVisAgentBench: منصة متطورة لتقييم وكلاء تحليل البيانات العلمية!

إطلاق SciVisAgentBench: منصة متطورة لتقييم وكلاء تحليل البيانات العلمية!

أركايف للذكاءمنذ 20 يوم

ثورة جديدة في أدوات الجداول: كيف تقيم "SpreadsheetBench 2" فهم الوكالات لعمليات الأعمال المعقدة؟

ثورة جديدة في أدوات الجداول: كيف تقيم "SpreadsheetBench 2" فهم الوكالات لعمليات الأعمال المعقدة؟

أركايف للذكاءمنذ 20 يوم

استكشاف أفق طويل: كيف يمكن نماذج اللغة متعددة الوسائط التنبؤ بالمشاهد من منظور ذاتي؟

استكشاف أفق طويل: كيف يمكن نماذج اللغة متعددة الوسائط التنبؤ بالمشاهد من منظور ذاتي؟

أركايف للذكاءمنذ 21 يوم

تحقيق ثورة في توليد الصور: معايير جديدة ومكافآت ديناميكية تُعيد تشكيل المستقبل!

تحقيق ثورة في توليد الصور: معايير جديدة ومكافآت ديناميكية تُعيد تشكيل المستقبل!

أركايف للذكاءمنذ 24 يوم

اختراق ثوري في تصنيف الصور الطبية: هل يمكن للنموذج الكمومي تحسين MRI الدماغ؟

اختراق ثوري في تصنيف الصور الطبية: هل يمكن للنموذج الكمومي تحسين MRI الدماغ؟

أركايف للذكاءمنذ 1 شهر

تعرف على SciRisk-Bench: معيار جديد لتقييم سلامة الذكاء الاصطناعي في الأبحاث العلمية!

تعرف على SciRisk-Bench: معيار جديد لتقييم سلامة الذكاء الاصطناعي في الأبحاث العلمية!

أركايف للذكاءمنذ 1 شهر

إطلاق LifeSciBench: معيار جديد يقيس كفاءة نماذج الذكاء الاصطناعي في أبحاث الحياة الحقيقية!

إطلاق LifeSciBench: معيار جديد يقيس كفاءة نماذج الذكاء الاصطناعي في أبحاث الحياة الحقيقية!

مارك تيك بوستمنذ 1 شهر

EngTrace: معيار جديد لضمان دقة عمليات الهندسة المعقدة!

EngTrace: معيار جديد لضمان دقة عمليات الهندسة المعقدة!

أركايف للذكاءمنذ 1 شهر

1 / 3التالي →