في عالم الذكاء الاصطناعي، يأتي التعلم المعزز البرمجي (Programmatic Reinforcement Learning) كبديل موثوق ومفسر للتعلم المعزز العميق (Deep Reinforcement Learning)، حيث يتم تمثيل السياسات كبرامج قابلة للقراءة والتعديل من قبل البشر. على الرغم من التطورات الحاصلة في الأساليب المعتمدة على المشتقات لتوسيع السياسات البرمجية، إلا أنها لا تزال تواجه تحديات كبيرة عند إعادة تحويل المخرجات المستمرة إلى برامج منفصلة، مما يؤدي إلى انخفاض ملحوظ في الأداء.

للتغلب على هذه الصعوبات، تم تقديم طريقة جديدة تعرف باسم DiPRL (Differentiable Discrete Programmatic Reinforcement Learning)، التي تهدف إلى التعلم وبناء سياسات برمجية تصبح شبه منفصلة أثناء التدريب، مما يتجاوز الحاجة لمرحلة ضبط دقيق لاحقة.

يقوم هذا النهج بتحليل المخاطر المعروفة من انخفاض الأداء الناتج عن إعادة تجزئة ما بعد التدريب للطرق المعتمدة على المشتقات، ويقدم تقنية جديدة تعرف بتنظيم إنتروبيا العمارة البرمجية (Programmatic Architecture Entropy Regularization)، التي تسمح بتدريب سلس وقابل للتفريق مما يشجع على التقارب نحو برنامج منفصل.

تظهر التجارب التي أُجريت عبر مهام التعلم المعزز المتنوعة، سواء كانت منفصلة أو مستمرة، أن DiPRL قادر على تحقيق أداء قوي بفضل السياسات البرمجية القابلة للتفسير. هذه النتائج تبشر بعصر جديد من التعلم المعزز يدمج الفعالية والكفاءة مع سهولة القراءة والتعديل.