تُعد استراتيجيات التعلم الآلي الحديثة متعددة الأبعاد ومتنوعة، ومع تقدم الأبحاث في هذا المجال، تظهر طرق جديدة لتعزيز الاستكشاف وتحسين الأداء. في هذا السياق، تمثل الدراسة الجديدة منظوراً مبتكراً يركز على استخدام سياسات إعادة المحاولة (Retry Policy) في الفضاءات المستمرة (Continuous Action Spaces).

تتضمن أهداف إعادة المحاولة مثل pass@K وmax@K تحسين العائد الأفضل من عدة مسارات تم أخذ عينات منها، وقد أظهرت الدراسات الأخيرة أن هذه الأهداف تساهم في تعزيز الاستكشاف دون الحاجة لمكافآت استكشاف صريحة. وقد أظهرت الأبحاث السابقة، لا سيما عمل ReMax، قدرة هذه الاستراتيجيات على التكيف مع عدم اليقين في العوائد في الفضاءات المتقطعة (Discrete Action Spaces).

في هذه الدراسة، تم تقديم مقدرات مشتق مسار السياسة (Pathwise Derivative Estimators) لأهداف إعادة المحاولة، مما ساهم في توسيع تطبيق ReMax ليشمل الفضاءات المستمرة. لقد تم تحليل ديناميكيات التعلم الناتجة، واكتُشف أن ReMax يمكن أن يشجع الاستكشاف العشوائي من خلال إعادة تشكيل مشهد التدرجات الخاصة بالسياسة، حتى وإن كانت المكافآت حتمية.

تتمثل النتائج في تغيير التدرجات من حيث الاتجاه والحجم، حيث تميل التحديثات نحو زيادة تباين السياسة (Policy Entropy) وتخفيف التدرجات، مما يبطئ من عملية التقارب. علاوة على ذلك، تم توضيح أن تقنية Adam للتطبيع التكيفي يمكن أن تقلل من هذا التخفيف، اعتماداً على معلماتها.

كجزء من التجارب، تم تجسيد هذه الأهداف كخوارزمية ReMax Actor-Critic (ReMAC)، التي تُعد خوارزمية غير متصلة تستخدم مقدر مشتق مسار لتعزيز هدف ReMax. وقد أظهرت التجارب أن ReMAC يمكن أن تعزز تباين السياسة الأعلى دون الحاجة إلى تنظيم التباين، محققة أداءً يوازي خوارزمية SAC (Soft Actor-Critic).

إن المؤشرات الناتجة من هذه الأبحاث تفتح آفاقًا جديدة لفهم كيفية تحسين استراتيجيات التعلم العميق من خلال تعزيز عمليات الاستكشاف، مما يساهم في التطوير المستدام للأدوات الذكية في المجتمعات الحديثة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.