في عالم تتزايد فيه الحاجة إلى الأتمتة، يبرز معيار MedCUA-Bench كحل مبتكر لمواجهة تحديات العمل السريري القائم على الشاشات. وكالات الكمبيوتر (Computer-use agents) يمكن أن تلعب دورًا رئيسيًا في تسريع وتسهيل الأعمال السريرية المتكررة، لكن موثوقيتها في التفاعل مع واجهات المستخدم الرسومية الطبية تظل غير مثبتة على نحو كافٍ.

غالبًا ما تركز المعايير الحالية على المهام العامة على الويب أو سطح المكتب، مما يؤدي إلى نقص كبير في تمثيل البرمجيات الطبية، التي تتطلب معرفة متخصصة وتظهر تصاميم واجهات مستخدم مختلفة تمامًا عن التطبيقات الشائعة. لهذا السبب، تم تصميم MedCUA-Bench ليكون معيارًا تفاعليًا يسمح بالتقييم الدقيق لوكالات الكمبيوتر في 18 سيناريو سريري عبر 10 مجالات طبية.

تم إعادة بناء السيناريوهات من أدلة منتجات حقيقية وأنظمة طبية مفتوحة المصدر، مما يضمن أن الاختبارات تعكس واجهات عيادية حقيقية، مع الالتزام بقضايا الترخيص والخصوصية. يشتمل كل مهمة على أهداف تتعلق بالنية والخطوات، مما يساعد على الفصل بين التفكير السريري وتنفيذ واجهة المستخدم. تمت مراجعة الأداء من قبل مُدقق حتمي يقيم إنجاز المهام وخمسة أبعاد تتعلق بالسلامة السريرية.

في تجربة مع 23 وكيلًا، حقق أفضل نموذج مغلق المصدر نسبة نجاح دقيقة تبلغ 54.2%، بينما لم تتجاوز جميع النماذج 9% على نظام OpenEMR الحقيقي. وتظهر النماذج المفتوحة المصدر متوسط نجاح يبلغ 2.5%، مع أفضل أداء يصل إلى 16.2%.

توفر MedCUA-Bench منصة اختبار قابلة للتكرار للبحوث المستقبلية، مما يكشف الفجوة الحالية بين وكالات الكمبيوتر والأداء الموثوق في البرمجيات السريرية. هل أنتم متحمسون لرؤية كيف ستسهم هذه التطورات في تحسين خدمات الرعاية الصحية؟ شاركونا آراءكم في التعليقات!