تعد الرعاية الصحية من المجالات التي تتطلب دقة كبيرة في اتخاذ القرارات، مما يستدعي تطوير أدوات تعليمية متعددة الخطوات تعزز من قدرات الذكاء الاصطناعي. وفي إطار هذا التوجه، تم تقديم دراسة شاملة حول بيئة تدريب جديدة تهدف إلى تعزيز الأداء الطبي بواسطة تقنيات التعلم المعزز (Reinforcement Learning).

تتضمن هذه البيئة 10 مجالات سريرية تشمل أكثر من 3,600 مهمة مع توفر 135 أداة متخصصة وقاعدة بيانات غنية تضم 828,000 مقطع طبي. ومن المهم ملاحظة أن التفاعل بين الوكلاء الطبيين يتطلب التنقل بين العديد من الخطوات، بدءاً من جمع تاريخ المريض، مروراً بطلب الفحوصات، وصولاً إلى تفسير النتائج واتخاذ القرار العلاجي.

ومع ذلك، النتائج الأولية للدراسة كشفت عن وجود تحديات تعترض سبيل تحقيق الأهداف المرسومة، مثل التحول من حوارات متعددة الخطوات إلى مونولوجات مطولة يسهل تجاوزها، مما يؤدي إلى الانفجار في طول الردود وانخفاض تكرار استخدام الأدوات. ولتجاوز هذه العقبات، تم طرح طريقة جديدة تُعرف باسم "تحسين التعلم الذاتي للسيطرة على التقطيع في مستوى الدور" (Turn-level Truncated On-Policy Distillation - TT-OPD)، والتي تُعتبر بمثابة إطار يقوم بتحسين كفاءة التدريب واستقراره بشكل ملحوظ.

بفضل هذا الأسلوب، تم تحقيق نتائج تفوق نسبة 3.9 نقطة بحوثية على 10 من أصل 18 معايير مقارنةً بالأساليب التقليدية. إن هذا التقدم يُعد خطوة مهمة نحو تعزيز فعالية الذكاء الاصطناعي في الرعاية الصحية وفتح آفاق جديدة لتطوير الأنظمة الطبية.