🏷️ #تقييم الأداء

165 مقال

EvoClaw: كيف تقيم الوكالات الذكية في تطور البرمجيات المستمر؟

EvoClaw: كيف تقيم الوكالات الذكية في تطور البرمجيات المستمر؟

أركايف للذكاءمنذ 1 شهر

اختبار الوكلاء الأخير: ثورة في تقييم أنظمة الذكاء الاصطناعي للاستخدام الاقتصادي!

اختبار الوكلاء الأخير: ثورة في تقييم أنظمة الذكاء الاصطناعي للاستخدام الاقتصادي!

أركايف للذكاءمنذ 1 شهر

TensorBench: تشييد جسر متين لعالم الذكاء الاصطناعي من خلال قياس أداء الوكلاء البرمجيين!

TensorBench: تشييد جسر متين لعالم الذكاء الاصطناعي من خلال قياس أداء الوكلاء البرمجيين!

أركايف للذكاءمنذ 1 شهر

تجاوز الاعتماد على المحفزات في تقييم نماذج الذكاء الاصطناعي: نموذج بايزي مبتكر يغير اللعبة!

نماذج لغوية

تجاوز الاعتماد على المحفزات في تقييم نماذج الذكاء الاصطناعي: نموذج بايزي مبتكر يغير اللعبة!

أركايف للذكاءمنذ 1 شهر

تحسين دقة تقييم التصنيف باستخدام نماذج لغوية ضخمة: هل حان الوقت لتغيير قواعد اللعبة؟

تحسين دقة تقييم التصنيف باستخدام نماذج لغوية ضخمة: هل حان الوقت لتغيير قواعد اللعبة؟

أركايف للذكاءمنذ 1 شهر

هل يساعد إضافة المزيد من العملاء على تحسين سير العمل في نماذج اللغات الضخمة؟

نماذج لغوية

هل يساعد إضافة المزيد من العملاء على تحسين سير العمل في نماذج اللغات الضخمة؟

أركايف للذكاءمنذ 1 شهر

هل تعلم؟ تلوث الوقت البحثي يؤثر على تقييم أداء الوكلاء الذكيين!

هل تعلم؟ تلوث الوقت البحثي يؤثر على تقييم أداء الوكلاء الذكيين!

أركايف للذكاءمنذ 1 شهر

نحو تحسن فعاليّة البحث عن الجيران الأقرب: ثورة في تقييم الذكاء الاصطناعي

نحو تحسن فعاليّة البحث عن الجيران الأقرب: ثورة في تقييم الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر

اختر بروتوكول الذكاء الاصطناعي الأمثل: ProtocolBench يكشف المعايير الخفية!

اختر بروتوكول الذكاء الاصطناعي الأمثل: ProtocolBench يكشف المعايير الخفية!

أركايف للذكاءمنذ 1 شهر

كيف يمكن لنماذج اللغات الضخمة تحسين الأمان والموثوقية في المؤسسات؟

نماذج لغوية

كيف يمكن لنماذج اللغات الضخمة تحسين الأمان والموثوقية في المؤسسات؟

أركايف للذكاءمنذ 1 شهر

ثورة في تطوير الأنظمة الذكية: إطار موحد لتحسين التعليمات استنادًا إلى استفسارات المستخدم!

نماذج لغوية

ثورة في تطوير الأنظمة الذكية: إطار موحد لتحسين التعليمات استنادًا إلى استفسارات المستخدم!

أركايف للذكاءمنذ 1 شهر

PolySpeech-100: معيار ثوري لفهم الكلام عبر 100 لغة ولهجة!

PolySpeech-100: معيار ثوري لفهم الكلام عبر 100 لغة ولهجة!

أركايف للذكاءمنذ 1 شهر

تحدي CodeGolf: تقييم مدهش لقدرات النماذج اللغوية في كتابة أكواد مختصرة!

تحدي CodeGolf: تقييم مدهش لقدرات النماذج اللغوية في كتابة أكواد مختصرة!

أركايف للذكاءمنذ 1 شهر

FEM-Bench: معيار جديد لتقييم قدرات النماذج اللغوية في إنتاج الأكواد العلمية

FEM-Bench: معيار جديد لتقييم قدرات النماذج اللغوية في إنتاج الأكواد العلمية

أركايف للذكاءمنذ 1 شهر

LH-Bench: تقييم مبتكر للذكاء الاصطناعي في مهام الأعمال اعتماداً على الخبرة

LH-Bench: تقييم مبتكر للذكاء الاصطناعي في مهام الأعمال اعتماداً على الخبرة

أركايف للذكاءمنذ 1 شهر

إعادة تعريف مطابقة النسخ: إطار موحد لمطابقة الوعي بالأجزاء في تقييم تقسيم بانوبتيك

إعادة تعريف مطابقة النسخ: إطار موحد لمطابقة الوعي بالأجزاء في تقييم تقسيم بانوبتيك

أركايف للذكاءمنذ 1 شهر

اختبار PTCG-Bench: هل تستطيع وكالات الذكاء الاصطناعي اتقان لعبة بطاقات بوكيمون؟

اختبار PTCG-Bench: هل تستطيع وكالات الذكاء الاصطناعي اتقان لعبة بطاقات بوكيمون؟

أركايف للذكاءمنذ 1 شهر

دفاعًا عن الخيال: DynSess يغير قواعد اللعبة في تقييم الروبوتات التفاعلية!

دفاعًا عن الخيال: DynSess يغير قواعد اللعبة في تقييم الروبوتات التفاعلية!

أركايف للذكاءمنذ 1 شهر

اكتشاف إمكانيات الذكاء الاصطناعي: اختبار تشخيصي لذكاء متعدد المصادر

اكتشاف إمكانيات الذكاء الاصطناعي: اختبار تشخيصي لذكاء متعدد المصادر

أركايف للذكاءمنذ 1 شهر

SPEED-Bench: المعيار الثوري لتسريع نماذج اللغة من خلال فك تشفير استباقي

SPEED-Bench: المعيار الثوري لتسريع نماذج اللغة من خلال فك تشفير استباقي

أركايف للذكاءمنذ 1 شهر

← السابق4 / 9التالي →