في عصر الذكاء الاصطناعي، يعتبر التعلم المعزز الفيدرالي (Federated Reinforcement Learning - FedRL) أحد التقنيات البارزة التي تسمح للعديد من الوكلاء (agents) بالتدريب على سياسة عالمية دون الحاجة لمشاركة بياناتهم الأصلية. هذه الميزة تجعل FedRL مثاليًا للتطبيقات التي تتطلب حماية الخصوصية.

ومع ذلك، يقابل FedRL عدة تحديات في البيئات المتنوعة حيث تختلف ديناميكيات انتقال الحالة مما يؤدي إلى تباين في توزيعات المدخلات والتحديثات غير المتوازنة للمعلمات أثناء التجميع. في سعيهم للتغلب على هذه العقبات، طور الباحثون طريقة جديدة تُعرف بتطبيع الملاحظات الشخصية (Personalized Observation Normalization - PON).

تعمل هذه الطريقة على تمكين كل وكيل من تطبيع مدخلات الحالة بشكل محلي باستخدام متوسط وتباين متجدد باستمرار. هذا التصميم يضمن توحيد قياس المميزات المحلية دون أن يطغى أحد الوكلاء على الآخر أثناء عملية التجميع.

تشير التجارب التي أجريت على مهام MuJoCo المتنوعة إلى أن PON تعزز من سرعة التدريب وأنها تحقق أداءً متفوقًا مقارنة بالطرق التقليدية السابقة.

لم يكن من الممكن مشاركة معلمات التطبيع بين الوكلاء نظرًا لاختلاف توزيعات المدخلات المحلية، مما يُبرز الحاجة الملحة للإحصاءات الشخصية. هذه النتائج تمثل خطوة مهمة نحو تعزيز فعالية FedRL في البيئات المعقدة.