في عالم الذكاء الاصطناعي، باتت الحاجة لتقييم أداء الوكلاء في بيئات العمل المعقدة أمراً ملحاً. ومن هذا المنطلق، تم تقديم معيار جديد يُعرف باسم Workspace-Bench 1.0، الذي يهدف إلى تقييم قدرة وكلاء الذكاء الاصطناعي على التعرف على واعتماديات الملفات المتنوعة في مكان العمل. يتطلب هذا النوع من التعلم من الوكلاء القدرة على التفكير والمسايرة الفعالة لتلك الاعتماديات، سواء كانت مرئية أو ضمنية، مما يساهم في إتمام المهام اليومية والمعقدة بكفاءة.
ومع ذلك، رغم الأهمية الكبيرة لهذه المهمة، فإن المعايير الحالية تركز بشكل عام على تقييم الأداء باستخدام ملفات محددة مسبقاً أو مُصنّعة، مما يحد من فرص تقييم الوكلاء في بيئات العمل الواقعية. لذا، تم تطوير Workspace-Bench، وهو معيار يتضمن 5 ملفات تعريف للموظفين و74 نوعاً من الملفات، تصل إلى 20,476 ملفاً، مع 388 مهمة، كل منها مُعتمدة على رسم بياني خاص باعتماديات الملفات.
تشمل هذه المهام تقنيات استرجاع المعلومات عبر الملفات، والتفكير السياقي، واتخاذ القرارات التكيفية، حيث تم تقييم الأداء عبر 7,399 معيار تقييم. كما تم تقديم نسخة مختصرة تُعرف بـ Workspace-Bench-Lite، التي تضم 100 مهمة وتعمل على تقليل تكلفة التقييم بنحو 70%.
تشير نتائج التجارب إلى أن الأداء الحالي للوكلاء لا يزال بعيداً عن النتائج الموثوقة، حيث لم تتجاوز أعلى درجات الأداء 68.7%، مقابل 80.7% للنتائج التي حققها البشر، بينما بلغ المتوسط 47.4% فقط. يسلط هذا التفاوت الضوء على التحديات الكبيرة التي تواجه وكلاء الذكاء الاصطناعي في الوصول إلى مستوى الفعالية المطلوبة في بيئات العمل المعقدة.
Workspace-Bench 1.0: انطلاقة جديدة في تقييم وكلاء الذكاء الاصطناعي في مهام العمل المعقدة
أطلقت مجموعة من الباحثين معياراً جديداً يُعرف بـ Workspace-Bench لتقييم وكلاء الذكاء الاصطناعي في بيئات العمل. هذا المعيار يهدف إلى تحسين فعالية الوكلاء في إدارة المهام المعقدة المتعلقة بالملفات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
