في عالم الذكاء الاصطناعي، يأتي [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) البرمجي (Programmatic [Reinforcement Learning](/tag/reinforcement-learning)) كبديل موثوق ومفسر للتعلم المعزز العميق (Deep [Reinforcement Learning](/tag/reinforcement-learning))، حيث يتم تمثيل [السياسات](/tag/السياسات) كبرامج قابلة للقراءة والتعديل من قبل البشر. على الرغم من التطورات الحاصلة في الأساليب المعتمدة على المشتقات لتوسيع [السياسات](/tag/السياسات) البرمجية، إلا أنها لا تزال تواجه [تحديات](/tag/تحديات) كبيرة عند إعادة [تحويل](/tag/تحويل) المخرجات المستمرة إلى [برامج](/tag/برامج) منفصلة، مما يؤدي إلى انخفاض ملحوظ في [الأداء](/tag/الأداء).

للتغلب على هذه الصعوبات، تم تقديم طريقة جديدة تعرف باسم DiPRL (Differentiable Discrete Programmatic [Reinforcement Learning](/tag/reinforcement-learning))، التي تهدف إلى [التعلم](/tag/التعلم) وبناء [سياسات](/tag/سياسات) برمجية تصبح شبه منفصلة أثناء التدريب، مما يتجاوز الحاجة لمرحلة [ضبط دقيق](/tag/ضبط-دقيق) لاحقة.

يقوم هذا النهج بتحليل [المخاطر](/tag/المخاطر) المعروفة من انخفاض [الأداء](/tag/الأداء) الناتج عن إعادة [تجزئة](/tag/تجزئة) ما بعد [التدريب](/tag/التدريب) للطرق المعتمدة على المشتقات، ويقدم [تقنية جديدة](/tag/[تقنية](/tag/تقنية)-جديدة) تعرف بتنظيم إنتروبيا العمارة البرمجية (Programmatic Architecture Entropy Regularization)، التي تسمح بتدريب سلس وقابل للتفريق مما يشجع على التقارب [نحو](/tag/نحو) برنامج منفصل.

تظهر [التجارب](/tag/التجارب) التي أُجريت [عبر](/tag/عبر) مهام [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) المتنوعة، سواء كانت منفصلة أو مستمرة، أن DiPRL قادر على [تحقيق](/tag/تحقيق) [أداء](/tag/أداء) قوي بفضل [السياسات](/tag/السياسات) البرمجية القابلة للتفسير. هذه النتائج تبشر بعصر [جديد](/tag/جديد) من [التعلم المعزز](/tag/[التعلم](/tag/التعلم)-المعزز) يدمج الفعالية والكفاءة مع سهولة القراءة والتعديل.