تشهد تقنيات الذكاء الاصطناعي وخاصة نماذج اللغات الضخمة (Large Language Models) انتشاراً واسعاً في مجال الرعاية الصحية، حيث تُستخدم هذه النماذج لتحليل وتقييم النصوص السريرية بشكل متزايد. في ظل هذه البيئة المتنامية، أصبح من الضروري تطوير طرق تقييم مناسبة وفعّالة لضمان سلامة البيانات ودقة النتائج.

نموذج LLM كقاضي (LLM-as-a-Judge) يقدم بديلاً قابلًا للتوسع يستخدم لتحليل نتائج النماذج الأخرى، مما يقلل من الحاجة لتقييم الخبراء الذي قد يكون مكلفاً. ومع ذلك، يثير هذا التطبيق في الرعاية الصحية العديد من المخاوف حول أمان وسلامة المعلومات، بالإضافة إلى التحيز الذي قد ينجم عن سوء استخدام التكنولوجيا.

قامت دراسة شاملة استخدمت منهجية PRISMA-ScR بمراجعة 11,727 دراسة تتعلق باستخدام LLM كقاضي، حيث وُجد أن 49 دراسة فقط تلبي المعايير المطلوبة. كانت معظم التطبيقات تركز على تقييم الأداء (37 دراسة) والتقييم النقاطي (42 دراسة)، حيث نجد أن الغالبية العظمى منها اعتمدت على نماذج عائلة GPT كقضاة (36 دراسة).

رغم التأكيد على أهمية النموذج، إلا أن قوة التحقق من صحة النتائج كانت محدودة، حيث أظهرت 36 دراسة ضمّت مشاركين بشريين فقط استخدام 3 خبراء كمتوسط عدد للمراجعين. وكانت الممارسات المتعلقة باختبار التحيز والغموض غائبة عن 73.5% من الدراسات.

مما يتفاقم الوضع، أن القليل من الدراسات استطاعت الوصول إلى مراحل الاستخدام الفعلي (دراسة واحدة) أو حتى مرحلة النموذج الأولي (4 دراسات). هذه الفجوات قد تؤدي إلى انسداد طرق التحقق، حيث قد تشترك النماذج المتعاونة في نفس نقاط الضعف.

ولمعالجة هذه التحديات، تم اقتراح إطار MedJUDGE، الذي يُركز على تقييم مخاطر ثلاثي الأبعاد شامل حول القبول، السلامة، والمساءلة، مما يوفر إرشادات للتحقق من نظام LaaJ في الرعاية الصحية. هذا الإطار يسعى لضمان تقييم فعال وواضح لتوجهات الرعاية الصحية.

ما رأيكم في هذا التطور الثوري في مجال الذكاء الاصطناعي والرعاية الصحية؟ شاركونا آراءكم في التعليقات.