تتوجه الأنظار بشكل متزايد نحو الذكاء الاصطناعي في مجالات الطب، حيث يتم استخدام نماذج اللغة الكبيرة (Large Language Models) لتقييم خيارات العلاج. ولكن، هل تساءلتم يومًا عن كيف تؤثر بروتوكولات التسجيل على دقة تقييم الذكاء الاصطناعي؟

في دراسة حديثة، تم تناول هذا السؤال بعمق من خلال تحليل سلوك الذكاء الاصطناعي في تقييم خيارات العلاج لمرضى السكري من النوع الثاني (T2D) خلال فترة متابعة 12 شهرًا. استخدمت الدراسة أربعة نماذج مفتوحة المصدر كنظم دعم القرار الطبي (CDSS) ونماذج التقييم AI، وقُيِّمت نتائجها وفقًا لبروتوكولين مختلفين: بروتوكول Gold Rubric (GR) الذي يعتمد على معايير محددة لكل مريض، وبروتوكول Non Gold Rubric (Non-GR) الذي لا يعتمد على المعايير.

أظهرت النتائج أن الذكاء الاصطناعي حقق درجات أعلى بشكل ملحوظ عندما تم استخدام بروتوكول Non-GR، حيث تراوحت الدرجات بين 74 إلى 78 نقطة، مقارنة بتسجيلات GR التي سجلت انخفاضًا بمعدل 7.69 إلى 49.64 نقطة. كما أن استخدام بروتوكول GR ساعد على تعزيز تمييز الذكاء الاصطناعي بين نتائج CDSS حسب الإعدادات المختلفة، مما يُظهر أهمية التطبيقات الأكثر تخصيصًا لتقييم القرارات الطبية.

ختامًا، تدل تلك النتائج على أن استخدام بروتوكولات تعتبر متطلبات واستجابة خاصة للمرضى يمكن أن يحسن من دقة التقييم من قبل نماذج الذكاء الاصطناعي. يجب على الباحثين والممارسين أخذ هذه المخاوف بعين الاعتبار عند تطوير أنظمة دعم القرار لاستغلال الإمكانيات الكاملة لتكنولوجيا الذكاء الاصطناعي في الطب.