في عصر الذكاء الاصطناعي، أصبحت نماذج اللغة الكبيرة (LLMs) جزءًا لا يتجزأ من مجالات الرعاية الصحية، حيث يُتوقع منها تحسين عمليات صنع القرار الطبي. لكن، على الرغم من انتشارها، لا تزال هذه النماذج تواجه تحديات كبيرة في التعامل مع السيناريوهات المعقدة المرتبطة بالقرارات السريرية.
لملء الفجوة في هذا المجال، تم تقديم معيار جديد يسمى ClinicalMC، وهو معيار مخصص لصنع القرار الطبي متعدد الدورات. يحتوي هذا المعيار على 1275 عينة باللغة الصينية و5804 عينات باللغة الإنجليزية، تُغطي أربع مراحل تبدأ من دخول المريض إلى المستشفى وتنتهي بخروجه. تشمل هذه المراحل: تقييم الحالة، الفحص/التشخيص/العلاج، تقييمات متعددة للدورات اللاحقة، والتشخيص النهائي.
تُظهر البيانات أن المرضى في مجموعة البيانات الإنجليزية يخضعون لمتوسط 5.11 دورة سريرية، بينما المرضى في المجموعة الصينية يخضعون لـ3.42 دورة فقط.
لتقييم أداء نماذج اللغة الكبيرة، تم تصميم إطار تقييم متعدد العوامل يشمل وكلاء المرضى، والممتحنين، والأطباء. بناءً على هذا المعيار، تم تطوير إعدادين تجريبيين - إعداد ثابت بدور واحد وإعداد ديناميكي متعدد الأدوار. تم تقييم ثلاث فئات من نماذج اللغة: 1) نماذج مغلقة المصدر مثل GPT5-mini؛ 2) نماذج مفتوحة المصدر مثل DeepSeek-V3.2؛ 3) نماذج طبية مثل HuatuoGPT-o1.
من خلال هذا التقييم المكثف، نهدف إلى فهم أفضل لأداء نماذج اللغة الكبيرة في مجال الطب ودعم تطبيقها الفعال في الرعاية الصحية. فهل أنتم مستعدون لاستكشاف مستقبل الطب المدعوم بالذكاء الاصطناعي؟
كلينكال إم سي: معايير جديدة لصنع القرار الطبي المعقد باستخدام نماذج اللغة الكبيرة
تقدم دراسة حديثة معيارًا ثوريًا جديدًا لصنع القرار الطبي في السيناريوهات متعددة الدورات عن طريق نماذج اللغة الكبيرة، مما يساعد على تطوير أدوات أكثر فعالية في الرعاية الصحية. يهدف هذا المعيار إلى تقييم أداء النماذج في ظروف أكثر تعقيدًا وتغيرًا.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
