في عصر الذكاء الاصطناعي، أصبحت نماذج اللغة الكبيرة (LLMs) جزءًا لا يتجزأ من مجالات الرعاية الصحية، حيث يُتوقع منها تحسين عمليات صنع القرار الطبي. لكن، على الرغم من انتشارها، لا تزال هذه النماذج تواجه تحديات كبيرة في التعامل مع السيناريوهات المعقدة المرتبطة بالقرارات السريرية.

لملء الفجوة في هذا المجال، تم تقديم معيار جديد يسمى ClinicalMC، وهو معيار مخصص لصنع القرار الطبي متعدد الدورات. يحتوي هذا المعيار على 1275 عينة باللغة الصينية و5804 عينات باللغة الإنجليزية، تُغطي أربع مراحل تبدأ من دخول المريض إلى المستشفى وتنتهي بخروجه. تشمل هذه المراحل: تقييم الحالة، الفحص/التشخيص/العلاج، تقييمات متعددة للدورات اللاحقة، والتشخيص النهائي.

تُظهر البيانات أن المرضى في مجموعة البيانات الإنجليزية يخضعون لمتوسط ​​5.11 دورة سريرية، بينما المرضى في المجموعة الصينية يخضعون لـ3.42 دورة فقط.

لتقييم أداء نماذج اللغة الكبيرة، تم تصميم إطار تقييم متعدد العوامل يشمل وكلاء المرضى، والممتحنين، والأطباء. بناءً على هذا المعيار، تم تطوير إعدادين تجريبيين - إعداد ثابت بدور واحد وإعداد ديناميكي متعدد الأدوار. تم تقييم ثلاث فئات من نماذج اللغة: 1) نماذج مغلقة المصدر مثل GPT5-mini؛ 2) نماذج مفتوحة المصدر مثل DeepSeek-V3.2؛ 3) نماذج طبية مثل HuatuoGPT-o1.

من خلال هذا التقييم المكثف، نهدف إلى فهم أفضل لأداء نماذج اللغة الكبيرة في مجال الطب ودعم تطبيقها الفعال في الرعاية الصحية. فهل أنتم مستعدون لاستكشاف مستقبل الطب المدعوم بالذكاء الاصطناعي؟