في عالم الذكاء الاصطناعي، يبقى الأمان هو العنصر الأكثر أهمية، خاصة في المجالات الحساسة مثل إدارة مرض السكري. دراسة جديدة على خوارزميات التعلم المعزز الآمن (Safe Reinforcement Learning) تكشف عن تحديات مثيرة عند الانتقال من بيئات التدريب إلى تطبيقات العالم الحقيقي.

في بيئة تجريبية محاكية سريرياً، أظهرت الأبحاث أن ضمانات السلامة التي تم تحقيقها أثناء التدريب لا تضمن النجاح عند مواجهة حالات غير مسبوقة. فقد تم اكتشاف فجوة في الأمان: السياسات التي كانت تتوافق مع القيود خلال التدريب غالبًا ما كانت تفشل في تلبية متطلبات الأمان بالنسبة للمرضى غير المعروفين.

ومع ذلك، استخدمت الدراسة تقنية تسمى "الحماية في وقت الاختبار" (Test-time Shielding)، والتي تقوم بتصفية الإجراءات غير الآمنة باستخدام نماذج ديناميكية متعلمة. وأثبتت النتائج أنها فعالة في استعادة الأمان عبر خوارزميات متنوعة ومجموعات مرضى مختلفة.

على مدار تجارب شملت ثمانية خوارزميات تُعنى بالتعلم المعزز الآمن، وأنواع متعددة من مرض السكري، ومجموعات عمرية مختلفة، حققت هذه التقنية تحسينات تصل إلى 14% في Time-in-Range، مما يُظهر نتائج فعالة مقارنة بأسس قوية مثل PPO-Lag وCPO. كذلك، تم تقليل مؤشر المخاطر السريرية وتقلبات سكر الدم.

ويعتبر المحاكي الذي تم تطويره والبروتكول الذي تم استخدامه منصة مهمة لدراسة الأمان تحت تغييرات توزيع البيانات في المجالات الحرجة. للمزيد من المعلومات، يمكنكم الاطلاع على الأكواد المتاحة على GitHub عبر الروابط: GlucoSim وGlucoAlg.