تعد خوارزميات اتخاذ القرار الذكي جزءاً أساسياً في تعزيز فعالية الأنظمة القابلة للتعلّم، لكن تظل مسألة السلامة غير مضمونة كثيراً. يبرز في هذا السياق خط بحث جديد يركز على تقييم السلامة في السياسات المعتمدة على التعلم من خلال التعامل مع عدم الحسم في الحالات والنتائج.

في قلب هذا البحث يأتي تحدي تحديد ما إذا كانت الحالة محددة بالسلامة (أي أنه يمكن اعتماد سياسة آمنة من تلك الحالة) والعثور على الأخطاء، وهي أزواج الحالة-الإجراء التي تنتقل من حالة آمنة إلى حالة غير آمنة.

الخوارزمية الأكثر فعالية في هذا المجال كانت TarjanSafe والتي أثبتت كفاءتها في اختبارات الأداء السابقة. لكن، تم الكشف عن أن لديها وقت تشغيل أسوأ على شكل استثنائي بالنسبة لحجم الحالة. بالمقابل، هناك بديل فعال زمنياً ضمن نطاق خطي، لكنه يتسم بالبطء في التطبيق العملي.

لحل هذه المشكلة، تم تطوير خوارزمية جديدة تُعرف باسم iPI، التي تجمع بين مزايا كلا الخوارزمتين المذكورتين. حيث تتفوق iPI من حيث الأداء، محققة وقت تشغيل مشابه لأفضل حالة في TarjanSafe مع ضمان إضافة إلى ذلك تنفيذ وقت أسوأ على شكل متعدد الحدود.

تظهر التجارب أن iPI تتفوق في الأداء بمشكلات تتناسب مع TarjanSafe، بينما في الحالات الأقل ملاءمة، تُظهر iPI قدرة على التوسع بشكل أفضل بشكل كبير.

باختصار، تعكس هذه التطورات مدى أهمية البحث المستمر في تحسين آليات اتخاذ القرارات المعتمدة على التعلم وتقديم المزيد من الضمانات في سلامتها.