🏷️ #تقييم النماذج

63 مقال

CRAFT: الابتكار في تشخيص نقاط ضعف نماذج الذكاء الاصطناعي وتحسين أدائها

CRAFT: الابتكار في تشخيص نقاط ضعف نماذج الذكاء الاصطناعي وتحسين أدائها

أركايف للذكاءمنذ 1 يوم

هل يمكن لآرجوس الحكم عليهم جميعًا؟ استكشاف نماذج الرؤية واللغة بمختلف المجالات

هل يمكن لآرجوس الحكم عليهم جميعًا؟ استكشاف نماذج الرؤية واللغة بمختلف المجالات

أركايف للذكاءمنذ 7 يوم

من المراقب إلى المتنبئ: تقييم مبتكر للطرائق الاستراتيجية المدعومة بالذكاء الاصطناعي

من المراقب إلى المتنبئ: تقييم مبتكر للطرائق الاستراتيجية المدعومة بالذكاء الاصطناعي

أركايف للذكاءمنذ 7 يوم

إعادة تعريف تقييم نماذج الذكاء الاصطناعي في الخدمات المالية: إطار عمليات مبتكر

إعادة تعريف تقييم نماذج الذكاء الاصطناعي في الخدمات المالية: إطار عمليات مبتكر

أركايف للذكاءمنذ 18 يوم

HERO: إطار ثوري لتقييم نماذج الذكاء الاصطناعي يعزز الموثوقية والدقة!

HERO: إطار ثوري لتقييم نماذج الذكاء الاصطناعي يعزز الموثوقية والدقة!

أركايف للذكاءمنذ 21 يوم

هل تميل benchmarks إلى تجاهل 82% من أداء نماذج الذكاء الاصطناعي؟ اكتشف الحقيقة وراء Capability Frontier!

هل تميل benchmarks إلى تجاهل 82% من أداء نماذج الذكاء الاصطناعي؟ اكتشف الحقيقة وراء Capability Frontier!

أركايف للذكاءمنذ 25 يوم

ما الذي نفتقده في تقييم نماذج اللغة متعددة الوسائط؟

ما الذي نفتقده في تقييم نماذج اللغة متعددة الوسائط؟

أركايف للذكاءمنذ 25 يوم

أدفيرسا بنش: نهج مبتكر لتقييم نماذج اللغة الكبيرة من خلال فريق مواجهة متعدد القضاة

أدفيرسا بنش: نهج مبتكر لتقييم نماذج اللغة الكبيرة من خلال فريق مواجهة متعدد القضاة

أركايف للذكاءمنذ 27 يوم

هل يقيم نماذج اللغة الكبيرة (LLMs) أنفسهم بدافع النرجسية؟ دراسة تكشف تفاصيل مثيرة!

هل يقيم نماذج اللغة الكبيرة (LLMs) أنفسهم بدافع النرجسية؟ دراسة تكشف تفاصيل مثيرة!

أركايف للذكاءمنذ 27 يوم

ثورة في تقييم نماذج البرمجة: تعرف على Multi-LCB وتحديات البرمجة المتعددة!

نماذج لغوية

ثورة في تقييم نماذج البرمجة: تعرف على Multi-LCB وتحديات البرمجة المتعددة!

أركايف للذكاءمنذ 1 شهر

JE-IRT: كيف تحدث نقلة نوعية في تقييم نماذج اللغات الضخمة باستخدام الهندسة الرياضية!

JE-IRT: كيف تحدث نقلة نوعية في تقييم نماذج اللغات الضخمة باستخدام الهندسة الرياضية!

أركايف للذكاءمنذ 1 شهر

حكم العملات: كيف تؤثر الثقة والانحياز في تقييم نماذج الذكاء الاصطناعي؟

حكم العملات: كيف تؤثر الثقة والانحياز في تقييم نماذج الذكاء الاصطناعي؟

أركايف للذكاءمنذ 1 شهر

تحسينات العبارات العامة: متى تؤذي التطبيقات المعتمدة على نماذج اللغات الضخمة؟

تحسينات العبارات العامة: متى تؤذي التطبيقات المعتمدة على نماذج اللغات الضخمة؟

أركايف للذكاءمنذ 1 شهر

تعديل الموجهات الناعمة: الثورة الجديدة في تقييم نماذج اللغات الضخمة!

نماذج لغوية

تعديل الموجهات الناعمة: الثورة الجديدة في تقييم نماذج اللغات الضخمة!

أركايف للذكاءمنذ 1 شهر

تجاوز نسبة النجاح: تقييم شامل لنماذج البرمجة متعددة اللغات

نماذج لغوية

تجاوز نسبة النجاح: تقييم شامل لنماذج البرمجة متعددة اللغات

أركايف للذكاءمنذ 1 شهر

غلوك أويديو: مع معيار متعدد اللغات والثقافات لتقييم النماذج الصوتية اللغوية

غلوك أويديو: مع معيار متعدد اللغات والثقافات لتقييم النماذج الصوتية اللغوية

أركايف للذكاءمنذ 1 شهر

معايير تقييم نظم مراقبة السائقين: الابتكار بنظرة إنسانية!

معايير تقييم نظم مراقبة السائقين: الابتكار بنظرة إنسانية!

أركايف للذكاءمنذ 1 شهر

كيف يمكن أن تخدعنا وكالات البرمجة؟ الكشف عن الغش ومنعه باستخدام اختبارات عشوائية!

كيف يمكن أن تخدعنا وكالات البرمجة؟ الكشف عن الغش ومنعه باستخدام اختبارات عشوائية!

أركايف للذكاءمنذ 1 شهر

اكتشاف AlgoVeri: معايير جديدة لتوليد الكود الموثوق في الخوارزميات الكلاسيكية

اكتشاف AlgoVeri: معايير جديدة لتوليد الكود الموثوق في الخوارزميات الكلاسيكية

أركايف للذكاءمنذ 1 شهر

هجمات مضادة فعالة على خوارزميات Bandit في الأبعاد العالية: كيف يمكن للهجمات الذكية تغيير سلوك النماذج!

هجمات مضادة فعالة على خوارزميات Bandit في الأبعاد العالية: كيف يمكن للهجمات الذكية تغيير سلوك النماذج!

أركايف للذكاءمنذ 1 شهر

1 / 4التالي →