في إطار جهود متزايدة لدمج الذكاء الاصطناعي في العمليات السريرية، يأتي نموذج MedAgentBench-v3 ليحدث تحولاً جذرياً. يهدف هذا النموذج إلى تحسين تنفيذ البروتوكولات السريرية، مثل التحقق من القيم المخبرية وتطبيق العتبات ووضع طلبات منظمة بشكل صحيح عن طريق تعزيز التعلم التعزيزي (Reinforcement Learning) من خلال التغذية الراجعة العالمية.

تُعتبر المهام السريرية مرشحة طبيعية لتطبيق التعلم التعزيزي، حيث يمكن للمختصين في المجال (SMEs) ترميز منطق القرار في نظام تحقق، مما يتيح تقييمًا غير محدود للتطبيقات دون الحاجة إلى توثيق كل تجربة.

لكن السؤال يظل: كيف يمكن تطبيق التعلم التعزيزي بفعالية في هذا السياق؟ الاستنتاجات تطالب بوجود قناة تغذية راجعة موثوقة وقدرات أساسية كافية. بعد تدقيق نموذج MedAgentBench في إصداره الأول والثاني، وُجد أن هناك سقف صمت يبلغ 41.7%، مما يجعل عدم التحرك هو الاستراتيجية الغالبة.

مع إصدار MedAgentBench-v3، تم زيادة عدد المهام إلى 508 ورفع السقف إلى 8.9%. تناول تدريب نموذج Qwen3-8B تحديات هيكلية، بما في ذلك "سقف القدرة" و"حاجز المعرفة الشكلية". أوضح التحليل أن 10 من أصل 20 نوعًا من المهام لم تحقق أي أداء أساسي، بينما 3 من 20 نوعًا بحاجة إلى رموز سريرية دقيقة يصعب اكتشافها.

تظهر النتائج أن التعلم التعزيزي الخالص يصل إلى 18.2% من النجاح مقابل 34.1% لنموذج التعلم القائم على القواعد، مما يبرز الفجوة الكبيرة التي تعزى بالكامل إلى هذه الحواجز. ووضع نموذج تصنيفي يشمل المعرفة بالقرار والمعرفة الشكلية والنظرية التبادلية، لتوقع القدرة على التعلم من التعلم التعزيزي، مع اقتراح الحلول المناسبة من خلال التعلم الموجه (SFT) لحقن الرموز، والتعلم التعزيزي لتعلم الشروط.