Ailoxa Logo

🏷️ #معايير جديدة

15 مقال

SkillSafetyBench: تقييم أمان الوكلاء في مواجهة هجمات المهارات!
أبحاث

SkillSafetyBench: تقييم أمان الوكلاء في مواجهة هجمات المهارات!

أركايف للذكاءمنذ 8 يوم
تعزيز نماذج البرمجة الرياضية: كيف يمكن لمعايير محسّنة تغيير قواعد اللعبة؟
أبحاث

تعزيز نماذج البرمجة الرياضية: كيف يمكن لمعايير محسّنة تغيير قواعد اللعبة؟

أركايف للذكاءمنذ 9 يوم
اكتشاف الحدود الجديدة: INDUCTION في دمج المفاهيم المنطقية ذات الهيكل المحدود
أبحاث

اكتشاف الحدود الجديدة: INDUCTION في دمج المفاهيم المنطقية ذات الهيكل المحدود

أركايف للذكاءمنذ 10 يوم
AgentAtlas: ثورة معايير تقييم وكالات نماذج اللغة الكبيرة
أبحاث

AgentAtlas: ثورة معايير تقييم وكالات نماذج اللغة الكبيرة

أركايف للذكاءمنذ 14 يوم
ثورة في تحرير الصور: DLEBench يقيم قدرة نماذج الذكاء الاصطناعي على تعديل الكائنات الصغيرة!
أبحاث

ثورة في تحرير الصور: DLEBench يقيم قدرة نماذج الذكاء الاصطناعي على تعديل الكائنات الصغيرة!

أركايف للذكاءمنذ 16 يوم
SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي
أبحاث

SwordBench: المعيار الثوري لتقييم استقلالية تمثيلات الصور في الذكاء الاصطناعي

أركايف للذكاءمنذ 17 يوم
معيار جديد لاكتشاف مرض باركنسون المبكر من خلال الكلام: خطوة نحو تشخيص أفضل!
أبحاث

معيار جديد لاكتشاف مرض باركنسون المبكر من خلال الكلام: خطوة نحو تشخيص أفضل!

أركايف للذكاءمنذ 21 يوم
ابتكار جديد في تقييم إزالة الأجسام من الصور: PROVE يحسن الدقة الإدراكية
أبحاث

ابتكار جديد في تقييم إزالة الأجسام من الصور: PROVE يحسن الدقة الإدراكية

أركايف للذكاءمنذ 21 يوم
BEAVER: معيار جديد لإحداث ثورة في تحويل النصوص إلى استعلامات SQL
أبحاث

BEAVER: معيار جديد لإحداث ثورة في تحويل النصوص إلى استعلامات SQL

أركايف للذكاءمنذ 22 يوم
LitVISTA: معيار جديد لفهم السرد الأدبي وتنسيق النصوص
أبحاث

LitVISTA: معيار جديد لفهم السرد الأدبي وتنسيق النصوص

أركايف للذكاءمنذ 29 يوم
اختبار Vibe Code Bench: تقييم نماذج الذكاء الاصطناعي في تطوير تطبيقات الويب بشكل شامل!
أبحاث

اختبار Vibe Code Bench: تقييم نماذج الذكاء الاصطناعي في تطوير تطبيقات الويب بشكل شامل!

أركايف للذكاءمنذ 29 يوم
فجوة الامتثال: لماذا تتعهد أنظمة الذكاء الاصطناعي باتباع التعليمات لكنها تخالفها؟
أبحاث

فجوة الامتثال: لماذا تتعهد أنظمة الذكاء الاصطناعي باتباع التعليمات لكنها تخالفها؟

أركايف للذكاءمنذ 1 شهر
اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة
أبحاث

اكتشاف LiveClawBench: المعيار الجديد لتقييم وكالات الذكاء الاصطناعي في المهام الحياتية المعقدة

أركايف للذكاءمنذ 1 شهر
ReXSonoVQA: معايير جديدة لفهم الموجات فوق الصوتية بأسلوب ديناميكي!
أبحاث

ReXSonoVQA: معايير جديدة لفهم الموجات فوق الصوتية بأسلوب ديناميكي!

أركايف للذكاءمنذ 1 شهر
تعلم بسرعة: معيار جديد في التعميم في التعلم المعزز!
أبحاث

تعلم بسرعة: معيار جديد في التعميم في التعلم المعزز!

مدونة أوبن إيه آيمنذ 99 شهر