مع تزايد قدرة عوامل الذكاء الاصطناعي (AI Agents) على التعامل مع التفكير المعقد وغير المباشر، أصبح من الضروري إيجاد معايير دقيقة وشاملة لتقييم تقدم هذه الأنظمة في تطبيقات الرعاية الصحية الواقعية. تم تقديم HealthAgentBench، وهو مجموعة متكاملة تتضمن 54 مهمة تعمل على تقييم أداء عوامل الذكاء الاصطناعي عبر 7 فئات، كل منها يحتوي على بيئة فريدة.

تسعى HealthAgentBench إلى تغطية مجموعة واسعة من سير العمل خلال رحلة المريض، شاملة خطوات ابتداءً من تحليل البيانات الصحية الخام وصولاً إلى تنفيذ حلول تتطلب خطوات متعددة. كل مهمة ليست مجرد اختبار بسيط، بل تستدعي من العوامل الذكية استكشاف البيانات، والعمل ضمن بيئات معقدة، والتفاعل مع سيناريوهات تشمل قدرات متقدمة.

ومع ذلك، على الرغم من التحديات، أثبت HealthAgentBench أنه معيار واعد، حيث أظهر أداءً منخفضًا في معدلات نجاح المهام، مما ينبه إلى صعوبة المجموعة. كان من بين الأبرز Codex GPT-5.5، الذي حقق حوالي 42% من النجاح فقط. بالإضافة إلى ذلك، تكشف HealthAgentBench عن جوانب دقيقة من نقاط القوة والضعف عبر مختلف فئات المهام. على الرغم من الوعد الذي يظهره بعض العوامل في تطوير نماذج بحثية أوتوماتيكية، إلا أن تحليل الصور الطبية لا يزال يمثل تحديًا كبيرًا.

وفي ضوء هذه النتائج، تؤكد HealthAgentBench على أهمية هذا المعيار في تقديم تحديات واقعية مع إمكانية للتحسين في المستقبل. يمكنكم زيارة رابط HealthAgentBench على GitHub للتعرف على المزيد.