في عالم الذكاء الاصطناعي الطبي الذي يتطور بسرعة، بات من الضروري توفير أدوات متقدمة لدعم أبحاثه. ومع ازدياد الاعتماد على الوكلاء المستقلين (Autonomous Agents) لتحسين عمليات البحث الشاملة، ظهر معيار جديد يدعى AutoMedBench. هذا المعيار لا يكتفي بتقييم النتائج النهائية فقط، بل يمنحنا رؤى عميقة حول سلوكيات الوكلاء خلال مراحل البحث.

يعمل AutoMedBench كمعيار وعي عملي (Workflow-Aware Benchmark) لأبحاث الذكاء الاصطناعي الطبية، موفراً نموذجاً متكاملاً يتضمن خمس مراحل تنفيذ (S1-S5): التخطيط (Plan)، الإعداد (Setup)، التحقق (Validate)، الاستنتاج (Inference)، والتقديم (Submit). يستهدف هذا النظام مجموعة متنوعة من المهام في معالجة الصور الطبية واستنتاج النتائج المتعددة (Multimodal Inference)، مما يتيح تقييم ديناميكية الوكلاء على مدار عمليات البحث.

كل عملية تبحث في خمس مجالات بحثية تشمل: تقسيم الصور (Segmentation)، تحسين الصور (Image Enhancement)، الإجابة عن الأسئلة البصرية (Visual Question Answering - VQAتوليد التقارير (Report Generation)، واكتشاف الآفات (Lesion Detection). يتم تقييم كل مهمة بناءً على صعوبة مختلفة، مما يعكس المرونة في تطبيقات الذكاء الاصطناعي. على سبيل المثال، تظهر النتائج أن مرحلة التحقق (Validate) تعتبر الأضعف على العموم، بينما يعد الإعداد (Setup) الأكثر قوة، مما يعكس فعالية الوكلاء في إعداد الأنظمة بدلاً من التحقق من موثوقيتها.

مع تحليل الأخطاء بعد التنفيذ، يتضح أن أخطاء التحقق والتقديم تشكل غالبية الأخطاء المسجلة، حيث تمثل 37.7% و38.1% على التوالي، بينما الأخطاء المتعلقة بفهم المهام نادرة بنسبة 0.9%. الأرقام تظهر أن العمليات التي تحتوي على خطأ واحد فقط عادةً ما تسجل درجات أقل بنسبة 48% مقارنة بالعمليات الخالية من الأخطاء، مما يسلط الضوء على أهمية التحقق في عملية البحث.

بفضل AutoMedBench، يُمكن للباحثين الآن تتبع سلوك الوكلاء وتحسين أدائهم بشكل أفضل خلال مراحل البحث، مما يعزز من قدرة الذكاء الاصطناعي على دعم مجالات طبية متعددة. فهل أنتم مستعدون لاستكشاف هذه المرحلة الجديدة في أبحاث الذكاء الاصطناعي الطبي؟ شاركونا آرائكم في التعليقات!