في عالم التعلم العميق، تتجه الأبحاث نحو تطوير أساليب أكثر فعالية للتعامل مع توزيعات العوائد في التعلم المعزز. في هذا الإطار، قدّمت دراسة جديدة مقاربة مبتكرة تُعرف بالشبكات الكمومية الضمنية المعزّزة (RQIQN) تهدف إلى معالجة التحديات التي تواجه طرق التعلم المعزز التوزيعي.

تُستخدم طرق التعلم المعزز التوزيعي المعتمدة على الكميات (Quantile-based Distributional Reinforcement Learning) لتعلم توزيعات العائد من خلال نمذجة انحدار الكميات المُدخلة، لكن يمكن أن تؤدي الممارسات الحالية إلى تقديرات معيبة أو مشوهة لتوزيعات العائد.

تقدم شبكة RQIQN تحسينات تتجاوز الطرق التقليدية من خلال إعادة تفسير أسلوب خسارة الشبكة الكمومية (IQN) كمجموعة من مشكلات تقدير الكمية المحلية. هذه الشبكة تمتاز بتحسين دقة تقديرات الكميات باستخدام صياغة تقدير موثوقة موجهة باستخدام آب-دال (Wasserstein) مما ينعكس على تصحيح أهداف Bellman.

تؤكد النتائج التجريبية أن هذا النهج الجديد يعالج الانحطاط التوزيعي بشكل مباشر، حيث أن توازن المعدل الذي تحققه يحافظ على متوسط الكمية المحايد للمخاطر، في حين يساعد تحكمها المتزايد على تعزيز الفجوات بين الكميات العليا والسفلى.

باختصار، يُظهر البحث أن شبكة RQIQN تؤدي أداءً أفضل من الطرق الحالية في التعلم المعزز التوزيعي، سواء في التطبيقات الحاسوبية المعقدة مثل توجيه المخاطر أو في ألعاب Atari، مما يمثل خطوة جديدة نحو تعزيز فهمنا لطبيعة التعلم العميق.