في عالم اليوم الملئ بالمعلومات، تُعتبر وكلاء البحث (Search Agents) أدوات حيوية في مساعدتنا على معالجة هذه الفوضى المعلوماتية. إنهم يعتمدون بشكل أساسي على نماذج اللغات الكبيرة (Large Language Models) لاستكشاف مصادر الويب بشكل مستقل وتجميع المعلومات ضمن استجابات شاملة تساعد المستخدمين في اتخاذ قرارات مستنيرة. ومع ذلك، كانت المعايير السابقة لتقييم هؤلاء الوكلاء تركز بشكل أكبر على المهام المتخصصة، مما يجعل من الصعب تطبيقها في سياقات الحياة اليومية الحقيقية.
لذا، تم تقديم معيار DailyReport كحل مبتكر لسد هذه الفجوة. هذا المعيار الجديد يتضمن 150 مهمة مفتوحة، مدعومة بـ 3546 معيار تقييم، ويهدف إلى مراجعة كيفية استجابة وكلاء البحث لمتطلبات المعلومات الشائعة والملحة التي يواجهها المستخدمون في حياتهم اليومية.
تم تقسيم كل مهمة إلى مهام فرعية، وتم تقييمها وفقًا لمعايير متتالية عبر أبعاد مختلفة، مما يتيح استخراج نتائج قابلة للتفسير بشكل كبير. وقد تم استخدام نتائج هذا التقييم لرصد أداء 17 من أنظمة البحث المتاحة، حيث أظهرت النتائج أن هذه الأنظمة لا تزال تعاني في تلبية توقعات المستخدمين.
المعيار DailyReport لم يهدف فقط إلى تحسين مواد البحث، بل أيضًا إلى تعزيز تجربة المستخدم عبر توفير تقييمات واضحة وقابلة للفهم. للتعمق أكثر في هذا المشروع الرائد، يمكنكم زيارة الرابط: https://github.com/AGI-Eval-Official/DailyReport.
تمثيل يومي: كيفية تقييم وكلاء البحث في مهام البحث اليومية بذكاء متطور!
تم إطلاق DailyReport، معيار جديد لتقييم قدرات وكلاء البحث في مهام البحث اليومية، مع 150 مهمة مفتوحة و3546 معيار تقييم. هذه الأداة تهدف إلى تحسين تجربة البحث لمستخدمين حقيقيين في العالم الواقعي.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
