يُعتبر التعلم المعزز offline أحد المجالات الرائدة في الذكاء الاصطناعي، حيث يهدف إلى تحسين السياسات بناءً على مجموعات بيانات مُجمعة مسبقاً. ومع ذلك، يواجه هذا النوع من التعلم تحديات كبيرة تتمثل في إدارة عدم اليقين المعرفي، والذي ينشأ من عدة عوامل مثل محدودية تغطية البيانات ووجود غموض في تعريف ديناميكيات الانتقال الناتجة عن البيانات المحدودة. لذلك تم اقتراح تطبيق Bayesian Reinforcement Learning (تعلم التعزيز البيزي) الذي يعامل نموذج الديناميكيات كمتغير عشوائي ويحتفظ بمعتقدات مرتبطة به.

على الرغم من جاذبيتها النظرية، فإن تحسين السياسات في Bayesian RL لا يزال يواجه تحديات حسابية معقدة بسبب الحاجة إلى حل أهداف مركبة تتضمن التوقعات. ممارسات قديمة تعتمد إما على تقنيات البحث التي تفتقر إلى القدرة على التوسع أو تفرض افتراضات ضعيفة عن النماذج تضر بالاستخدام العملي لتعلم التعزيز البيزي.

للخروج من هذه الدائرة، تم تقديم نموذج PhyB (Posterior Hybrid Bayesian Belief)، الذي يعيد تشكيل التوقعات كتركيبة محدبة على مجموعة فرعية من نماذج الديناميكيات. تحليلات نظرية تدعم هذا النموذج، حيث تظهر أن الفروقات الناتجة عن هذا الاقتراب تظل محصورة. كما تم تطوير خوارزمية تحسين سياسات معيارية تكرارية تستند إلى PhyB تضمن تحسيناً monotonic حتى الوصول إلى التوافق المطلوب.

نتائج التجارب أظهرت أن نموذج PhyB يحقق أداءً متقدماً في مجموعة من المعايير، مما يعزز من مصداقية هذه التقنية ويوسع آفاقها مستقبلًا. إن تطبيقات هذه التقنية قد تساهم بشكل كبير في مجالات متعددة مثل الروبوتات وأنظمة القيادة الذاتية.