🏷️ #تقييم النماذج
42 مقال
نماذج لغوية
ألعاب التوكن: تقييم تفكير نماذج اللغة عبر تحديات الألغاز
أركايف للذكاءمنذ 17 يوم
أبحاث
ديف بنش: معيار واقعي ثوري لتقييم نماذج توليد الشفرات البرمجية!
أركايف للذكاءمنذ 17 يوم
أبحاث
هل يمكن لتباينات التوزيع أن تخدعك؟ كيف تضمن نماذج الذكاء الاصطناعي دقة المعلومات الهيكلية!
أركايف للذكاءمنذ 17 يوم
أبحاث
تحليل دقيق لتوليد الفيديوهات التصميمية: كيف تقيم جودة التكوين؟
أركايف للذكاءمنذ 18 يوم
أبحاث
هل تستخدم نماذج اللغات الضخمة (LLMs) الحفظ عن ظهر قلب؟ اكتشافات مذهلة في عالم الذكاء الاصطناعي!
أركايف للذكاءمنذ 18 يوم
أبحاث
SeePhys Pro: ثورة في تقييم استجابة الذكاء الاصطناعي في التفكير الفيزيائي
أركايف للذكاءمنذ 24 يوم
أبحاث
اختبار نشط لنماذج اللغة الضخمة: ابتكار جديد يحقق كفاءة مذهلة في التقييم
أركايف للذكاءمنذ 24 يوم
أبحاث
Magis-Bench: معيار جديد لتقييم نماذج الذكاء الاصطناعي في المهام القانونية!
أركايف للذكاءمنذ 24 يوم
أبحاث
اكتشف تحديات جديدة: MathConstraint لتقييم قدرات التفكير التبادلي في نماذج الذكاء الاصطناعي!
أركايف للذكاءمنذ 24 يوم
أبحاث
ثورة في إدارة المحتوى: تقييم أداء نماذج الذكاء الاصطناعي من خلال RuleSafe-VL
أركايف للذكاءمنذ 25 يوم
أبحاث
تقييم نماذج الذكاء الاصطناعي بكفاءة: كيف تساعد الإجابات المخزنة في تحسين الأداء؟
أركايف للذكاءمنذ 25 يوم
أبحاث
كشف الستار عن جدار عدم القابلية للحل في توجيه نماذج اللغة المتعددة: دراسة تجريبية تكشف الأسرار المخفية
أركايف للذكاءمنذ 25 يوم
أبحاث
اختيار معايير تقييم الذكاء الاصطناعي: كيف تعزز دقة النماذج الكبيرة؟
أركايف للذكاءمنذ 1 شهر
أبحاث
هل تحتاج نماذج اللغة الضخمة (LLM) إلى تحسين قبل التقييم؟ اكتشفوا الإجابة هنا!
أركايف للذكاءمنذ 1 شهر
أبحاث
RPC-Bench: ابتكار معيار دقيق لفهم البحوث العلمية يعيد تشكيل مستقبل النماذج اللغوية!
أركايف للذكاءمنذ 1 شهر
أبحاث
ScoringBench: كيف تقيم نماذج البيانات الجدولية من خلال معايير تسجيل دقيقة!
أركايف للذكاءمنذ 1 شهر
أبحاث
RoboWM-Bench: الثورية الجديدة في تقييم نماذج العالم للروبوتات
أركايف للذكاءمنذ 1 شهر
أبحاث
UniEditBench: معيار موحد وغير مكلف لتحرير الصور والفيديوهات يعيد تشكيل تقييم النماذج البصرية
أركايف للذكاءمنذ 1 شهر
أبحاث
توقعات مستقبلية مجمعة: ثورة في تقييم قدرات الذكاء الاصطناعي
أركايف للذكاءمنذ 1 شهر
أبحاث
استكشاف خفايا التلاعب الضار بواسطة الذكاء الاصطناعي: إطار تقييم مبتكر
أركايف للذكاءمنذ 1 شهر
