إطار العمل الجديد
تعتمد هذه الدراسة على إعادة تهيئة مساحات التصرفات لتكون متصلة (Continuous)، بغض النظر عن نوع الأفعال الأصلية، سواء كانت متقطعة (Discrete)، مستمرة (Continuous)، أو هجينة (Hybrid). عبر هذا التعديل، تم تطوير تقدير جديد لتدرجات السياسة (Policy Gradient) يعرف باسم توزيع الأفعال (Distributions-as-Actions Policy Gradient - DA-PG)، وهو مصمم ليكون ذا تباين أقل من التدرجات في المساحات الأصلية.
التحديات والحلول
على الرغم من أن تعلم الناقد (Critic) عبر معلمات التوزيع يطرح تحديات جديدة، إلا أن البحث يقدم طريقة فعالة تدعى تعليم الناقد المُتداخِل (Interpolated Critic Learning - ICL)، والتي تستند إلى أفكار مستمدة من إعدادات الباندت (Bandit Settings).
الخوارزمية الجديدة
بناءً على TD3، وهو خط أساس قوي للتحكم المستمر، يقترح البحث خوارزمية عملية جديدة تعتمد على العميل والناقد (Actor-Critic) تُعرف باسم توزيع الأفعال (Distributions-as-Actions Actor-Critic - DA-AC). أظهرت التجارب أن DA-AC تحقق أداءً تنافسياً في مجموعة متنوعة من البيئات تشمل التحكم المتقطع والمستمر والهجين.
هذا البحث يعد خطوة نوعية نحو تحسين الأداء في التعلم المعزز، مما يفتح الباب أمام مزيد من الابتكارات في هذا المجال. ما رأيكم في هذا التطور؟ شاركونا في التعليقات.
