Ailoxa Logo

🏷️ #تقييم النماذج

42 مقال

ألعاب التوكن: تقييم تفكير نماذج اللغة عبر تحديات الألغاز
نماذج لغوية

ألعاب التوكن: تقييم تفكير نماذج اللغة عبر تحديات الألغاز

أركايف للذكاءمنذ 17 يوم
ديف بنش: معيار واقعي ثوري لتقييم نماذج توليد الشفرات البرمجية!
أبحاث

ديف بنش: معيار واقعي ثوري لتقييم نماذج توليد الشفرات البرمجية!

أركايف للذكاءمنذ 17 يوم
هل يمكن لتباينات التوزيع أن تخدعك؟ كيف تضمن نماذج الذكاء الاصطناعي دقة المعلومات الهيكلية!
أبحاث

هل يمكن لتباينات التوزيع أن تخدعك؟ كيف تضمن نماذج الذكاء الاصطناعي دقة المعلومات الهيكلية!

أركايف للذكاءمنذ 17 يوم
تحليل دقيق لتوليد الفيديوهات التصميمية: كيف تقيم جودة التكوين؟
أبحاث

تحليل دقيق لتوليد الفيديوهات التصميمية: كيف تقيم جودة التكوين؟

أركايف للذكاءمنذ 18 يوم
هل تستخدم نماذج اللغات الضخمة (LLMs) الحفظ عن ظهر قلب؟ اكتشافات مذهلة في عالم الذكاء الاصطناعي!
أبحاث

هل تستخدم نماذج اللغات الضخمة (LLMs) الحفظ عن ظهر قلب؟ اكتشافات مذهلة في عالم الذكاء الاصطناعي!

أركايف للذكاءمنذ 18 يوم
SeePhys Pro: ثورة في تقييم استجابة الذكاء الاصطناعي في التفكير الفيزيائي
أبحاث

SeePhys Pro: ثورة في تقييم استجابة الذكاء الاصطناعي في التفكير الفيزيائي

أركايف للذكاءمنذ 24 يوم
اختبار نشط لنماذج اللغة الضخمة: ابتكار جديد يحقق كفاءة مذهلة في التقييم
أبحاث

اختبار نشط لنماذج اللغة الضخمة: ابتكار جديد يحقق كفاءة مذهلة في التقييم

أركايف للذكاءمنذ 24 يوم
Magis-Bench: معيار جديد لتقييم نماذج الذكاء الاصطناعي في المهام القانونية!
أبحاث

Magis-Bench: معيار جديد لتقييم نماذج الذكاء الاصطناعي في المهام القانونية!

أركايف للذكاءمنذ 24 يوم
اكتشف تحديات جديدة: MathConstraint لتقييم قدرات التفكير التبادلي في نماذج الذكاء الاصطناعي!
أبحاث

اكتشف تحديات جديدة: MathConstraint لتقييم قدرات التفكير التبادلي في نماذج الذكاء الاصطناعي!

أركايف للذكاءمنذ 24 يوم
ثورة في إدارة المحتوى: تقييم أداء نماذج الذكاء الاصطناعي من خلال RuleSafe-VL
أبحاث

ثورة في إدارة المحتوى: تقييم أداء نماذج الذكاء الاصطناعي من خلال RuleSafe-VL

أركايف للذكاءمنذ 25 يوم
تقييم نماذج الذكاء الاصطناعي بكفاءة: كيف تساعد الإجابات المخزنة في تحسين الأداء؟
أبحاث

تقييم نماذج الذكاء الاصطناعي بكفاءة: كيف تساعد الإجابات المخزنة في تحسين الأداء؟

أركايف للذكاءمنذ 25 يوم
كشف الستار عن جدار عدم القابلية للحل في توجيه نماذج اللغة المتعددة: دراسة تجريبية تكشف الأسرار المخفية
أبحاث

كشف الستار عن جدار عدم القابلية للحل في توجيه نماذج اللغة المتعددة: دراسة تجريبية تكشف الأسرار المخفية

أركايف للذكاءمنذ 25 يوم
اختيار معايير تقييم الذكاء الاصطناعي: كيف تعزز دقة النماذج الكبيرة؟
أبحاث

اختيار معايير تقييم الذكاء الاصطناعي: كيف تعزز دقة النماذج الكبيرة؟

أركايف للذكاءمنذ 1 شهر
هل تحتاج نماذج اللغة الضخمة (LLM) إلى تحسين قبل التقييم؟ اكتشفوا الإجابة هنا!
أبحاث

هل تحتاج نماذج اللغة الضخمة (LLM) إلى تحسين قبل التقييم؟ اكتشفوا الإجابة هنا!

أركايف للذكاءمنذ 1 شهر
RPC-Bench: ابتكار معيار دقيق لفهم البحوث العلمية يعيد تشكيل مستقبل النماذج اللغوية!
أبحاث

RPC-Bench: ابتكار معيار دقيق لفهم البحوث العلمية يعيد تشكيل مستقبل النماذج اللغوية!

أركايف للذكاءمنذ 1 شهر
ScoringBench: كيف تقيم نماذج البيانات الجدولية من خلال معايير تسجيل دقيقة!
أبحاث

ScoringBench: كيف تقيم نماذج البيانات الجدولية من خلال معايير تسجيل دقيقة!

أركايف للذكاءمنذ 1 شهر
RoboWM-Bench: الثورية الجديدة في تقييم نماذج العالم للروبوتات
أبحاث

RoboWM-Bench: الثورية الجديدة في تقييم نماذج العالم للروبوتات

أركايف للذكاءمنذ 1 شهر
UniEditBench: معيار موحد وغير مكلف لتحرير الصور والفيديوهات يعيد تشكيل تقييم النماذج البصرية
أبحاث

UniEditBench: معيار موحد وغير مكلف لتحرير الصور والفيديوهات يعيد تشكيل تقييم النماذج البصرية

أركايف للذكاءمنذ 1 شهر
توقعات مستقبلية مجمعة: ثورة في تقييم قدرات الذكاء الاصطناعي
أبحاث

توقعات مستقبلية مجمعة: ثورة في تقييم قدرات الذكاء الاصطناعي

أركايف للذكاءمنذ 1 شهر
استكشاف خفايا التلاعب الضار بواسطة الذكاء الاصطناعي: إطار تقييم مبتكر
أبحاث

استكشاف خفايا التلاعب الضار بواسطة الذكاء الاصطناعي: إطار تقييم مبتكر

أركايف للذكاءمنذ 1 شهر