تظل تصميم وظائف المكافأة في التعلم التعزيزي (Reinforcement Learning) ضمن قطاع الرعاية الصحية تحديًا كبيرًا، حيث إن النتائج السريرية المعنونة تكون نادرة ومتأخرة وصعبة التحديد بوضوح. فعلى الرغم من أن البيانات السريرية المنظمّة تعكس الحالات الفسيولوجية، إلا أنها قد تعجز عن تمثيل جوانب أوسع من مسارات المرضى، مثل استجابة العلاج، ديناميكيات التعافي، وعبء التدخلات.

ومن هنا، تظهر أهمية السرد السريري، الذي يضم تقييمات سريرية طويلة الأمد لتقدم المرض، فعالية العلاج، والتعافي، مما يقدّم مصدرًا مُحتَمَلًا للإشراف على مسار المريض يتجاوز مقاييس النتائج المسبقة.

نقترح إطار العمل المسمى "المكافآت المستندة إلى تفضيلات السرد السريري" (Clinical Narrative-informed Preference Rewards) الذي يتعلم وظائف المكافأة مباشرة من ملخصات الخروج من المستشفى عن طريق اعتبار السرد السريري كإشراف قابل للتوسع لتفضيلات المسار؛ إذ يتم استخدام نموذج لغوي كبير لاشتقاق درجات جودة المسار وبناء تفضيلات زوجية بين مسارات المرضى، بهدف تعلم المكافآت من خلال تحسين قائم على التفضيلات.

للحصول على تقييم دقيق للتنوع في معلومات السرد، ندمج إشارة صلة بالمهمة التي تعكس مدى صلة الإشراف بالمهمة النهائية في اتخاذ القرار. قمنا بتقييم "CN-PR" في سياق علاج الإنتان الديناميكي باستخدام التعلم التعزيزي غير المتصل. وأظهر المكافأة المستنبطة توافقًا قويًا مع درجات جودة المسار، وأنتجت سياسات مرتبطة بتحسين النتائج المرتبطة بالتعافي، بما في ذلك زيادة الأيام الخالية من دعم الأعضاء وحل أسرع للصدمات، مع الحفاظ على كفاءة أداء تكون مقارنة بمكافآت قائمة على النتائج.

تؤكد نتائج الدراسة على أن السرد السريري يمثل مصدرًا قابلًا للتوسع وذو تعبير قوي للإشراف على تعلم المكافأة في أنظمة العلاج الديناميكية. فكيف يمكن استغلال هذا النوع من السرد في تحسين مجالات أخرى في الرعاية الصحية؟