في عصر التقنيات المتقدمة، ظهر نموذج جديد يتناول كيفية تقييم أداء وكلاء الذكاء الاصطناعي في الأسواق المالية والمهنية. يسلط البحث الجديد الضوء على مفهوم "ماركت بنش" (MarketBench) كمعيار يهدف إلى قياس القدرة التنافسية لهؤلاء الوكلاء.

تعتبر الأسواق وسيلة واعدة لتنسيق الأنشطة بين وكلاء الذكاء الاصطناعي، كما هو الحال مع الأسواق التقليدية. للوصول إلى أقصى درجات الكفاءة في هذه الأسواق، يجب على الوكلاء امتلاك إشارات دقيقة توضح قدرتهم على إنجاز المهام والتكاليف المرتبطة بها.

يشمل بحث "ماركت بنش" دراسة 93 مهمة من مجموعة "SWE-bench Lite"، وهي معيار في مجال هندسة البرمجيات، حيث تم اختبار ستة نماذج لغوية كبيرة (Large Language Models) حديثة. أظهرت النتائج أن هذه النماذج تعاني من عدم دقة في حساب احتمالات النجاح واستخدام الرموز، مما أدى إلى عدم توافق في نتائج المزادات التي تم بناؤها استنادًا إلى تقاريرها الذاتية.

شهدت التدخلات الإضافية التي تضمنت معلومات عن القدرات المستندة إلى تجارب سابقة تحسينًا طفيفًا في الدقة، ولكنها لم تحقق التوافق الكامل مع المعايير المرجعية. تكشف هذه النتائج عن أن التقييم الذاتي يعتبر عائقًا رئيسيًا في تنسيق وكلاء الذكاء الاصطناعي بأسلوب السوق، مما يستدعي اهتمامًا أكبر نحو تحسين هذه العملية.

هل تعتقد أن تطوير أدوات تقييم جديدة يمكن أن يساعد في تحسين توقعات وكلاء الذكاء الاصطناعي؟ شاركونا آراءكم في التعليقات.