تشهد تقنيات الذكاء الاصطناعي، وخاصة نماذج اللغة الضخمة (Large Language Models)، تطورًا ملحوظًا في العديد من المجالات، بما في ذلك الرعاية الصحية. ومع ذلك، فإن السؤال الحقيقي الذي يطرح نفسه هو: هل يمكن لهذه النماذج أن تكون فعلاً أداة مساعدة موثوقة للأطباء في ميدانهم؟

تسعى نتائج الدراسات الحالية إلى تقييم الأنظمة الجديدة، لكن العديد من هذه التقييمات تعتمد على القدرات المنعزلة لنماذج الذكاء الاصطناعي. بمعنى آخر، يتم اختبار المعرفة السريرية، تفاعل النظام مع السجلات الإلكترونية، أو حتى التواصل مع المرضى بشكل منفصل. إلا أن الواقع الطبي يتطلب التنسيق بين هذه القدرات جميعها خلال التفاعل الواحد.

للإجابة على هذا التحدي، تم تقديم PhysAssistBench، وهو معيار (benchmark) للتحقق من أداء الدعم الطبي التفاعلي بين الأطباء والمرضى ونظام السجلات الإلكترونية. تم بناء PhysAssistBench من حالات واقعية مأخوذة من قاعدة بيانات MIMIC-IV، حيث يوفر نظامًا قادرًا على إنشاء سيناريوهات سريرية متعددة التفاعلات من خلال تحويل السجلات الثابتة إلى محادثات تفاعلية مع الحفاظ على الدقة السريرية.

يتضمن PhysAssistBench مجموعة تقييم معدة بعناية تحتوي على 1,296 تفاعل تم مراجعتها من قبل أطباء للتأكد من مصداقيتها وجودتها. وبالرغم من هذه التطورات، أظهرت التجارب مع النماذج الرائدة أن النماذج الحالية لا تزال تواجه مشاكل في الثقة ضمن هذا السياق، مما يكشف عن عنق زجاجة رئيسي للذكاء الاصطناعي الذي يهدف إلى دعم الأطباء.

لتحقيق مساعدة موثوقة، من الضروري تنسيق المعرفة، التواصل، والأنظمة في تفاعل واحد، وليس مجرد تحقيق تحسينات معزولة في أي منها. لذا، يبقى التساؤل قائمًا: هل ستنجح نماذج اللغة الضخمة في أن تصبح الشريك الفعال للأطباء في المستقبل؟