Ailoxa Logo

🏷️ #تقييم الوكلاء

14 مقال

STAGE-Claw: ثورة في تقييم الوكلاء الذكيين بطرق واقعية
أبحاث

STAGE-Claw: ثورة في تقييم الوكلاء الذكيين بطرق واقعية

أركايف للذكاءمنذ 5 يوم
MBABench: تقييم قدرات الوكلاء على إنجاز مهام الجداول المالية بشكل كامل
أبحاث

MBABench: تقييم قدرات الوكلاء على إنجاز مهام الجداول المالية بشكل كامل

أركايف للذكاءمنذ 6 يوم
تقييم الذكاء الاصطناعي: إطار عمل خفيف لقياس سلوكيات الوكلاء بناءً على الإنتروبيا
أبحاث

تقييم الذكاء الاصطناعي: إطار عمل خفيف لقياس سلوكيات الوكلاء بناءً على الإنتروبيا

أركايف للذكاءمنذ 9 يوم
👁 1
تحدٍ جديد: كيفية تحسين تغطية وصعوبة معايير تقييم الوكلاء باستخدام TASTE
نماذج لغوية

تحدٍ جديد: كيفية تحسين تغطية وصعوبة معايير تقييم الوكلاء باستخدام TASTE

أركايف للذكاءمنذ 18 يوم
QUACK: ثورة في تقييم الذكاء الاصطناعي من خلال الألعاب الاجتماعية متعددة الوسائط!
أبحاث

QUACK: ثورة في تقييم الذكاء الاصطناعي من خلال الألعاب الاجتماعية متعددة الوسائط!

أركايف للذكاءمنذ 19 يوم
ضرورة تأسيس إطار موحد لتقييم الوكلاء المعتمدين على نماذج اللغات الضخمة
أبحاث

ضرورة تأسيس إطار موحد لتقييم الوكلاء المعتمدين على نماذج اللغات الضخمة

أركايف للذكاءمنذ 19 يوم
ريال يوزر سيم: ثورة في تقييم الوكلاء عبر محاكاة مستخدمين حقيقية!
أبحاث

ريال يوزر سيم: ثورة في تقييم الوكلاء عبر محاكاة مستخدمين حقيقية!

أركايف للذكاءمنذ 24 يوم
ريكو أطلس: النقلة النوعية في تقييم أدوات الذكاء الاصطناعي لمساعدات التسوق!
أبحاث

ريكو أطلس: النقلة النوعية في تقييم أدوات الذكاء الاصطناعي لمساعدات التسوق!

أركايف للذكاءمنذ 26 يوم
اكتشفوا ثغرات تقييم وكلاء البرمجيات مع AgentLens: مشكلة Lucky Pass تكشف المستور!
أبحاث

اكتشفوا ثغرات تقييم وكلاء البرمجيات مع AgentLens: مشكلة Lucky Pass تكشف المستور!

أركايف للذكاءمنذ 1 شهر
تحليل السجلات: المفتاح لتعزيز مصداقية تقييم الوكلاء الذكيين
أبحاث

تحليل السجلات: المفتاح لتعزيز مصداقية تقييم الوكلاء الذكيين

أركايف للذكاءمنذ 1 شهر
تقييم الوكلاء العامين: دراسة جديدة تكشف أسرار الأداء في بيئات غير مألوفة!
أبحاث

تقييم الوكلاء العامين: دراسة جديدة تكشف أسرار الأداء في بيئات غير مألوفة!

أركايف للذكاءمنذ 1 شهر
وكيل مدعوم: تقييم ذكي لحظات تنفيذ الوكلاء باستخدام التعليقات الفورية!
أبحاث

وكيل مدعوم: تقييم ذكي لحظات تنفيذ الوكلاء باستخدام التعليقات الفورية!

أركايف للذكاءمنذ 1 شهر
استطلاع شامل حول تقييم وكلاء الذكاء الاصطناعي المستندين إلى نماذج اللغة الضخمة!
أبحاث

استطلاع شامل حول تقييم وكلاء الذكاء الاصطناعي المستندين إلى نماذج اللغة الضخمة!

أركايف للذكاءمنذ 1 شهر
AstaBench: ثورة جديدة في تقييم وكلاء الذكاء الاصطناعي في البحث العلمي
أبحاث

AstaBench: ثورة جديدة في تقييم وكلاء الذكاء الاصطناعي في البحث العلمي

أركايف للذكاءمنذ 1 شهر