تُعتبر سلامة العمليات أحد أهم التحديات في مجال التعلم التعزيزي (Reinforcement Learning)، خصوصًا عند تطبيقه في بيئات العالم الحقيقي. وقد أصبح صياغة متطلبات السلامة كقيود تعتمد على الحالة أمرًا شائعًا في الأبحاث الحديثة.
يتطلب التعامل مع هذه القيود استخدام طريقة لاغرانج، حيث تحتاج كل حالة إلى مضاعف خاص بها، مما يستدعي استخدام الشبكات العصبية لإنشاء شبكة مضاعف. ومع ذلك، يؤدي تطبيق طريقة الصعود الثنائي القياسي على هذه الشبكات إلى اهتزازات شديدة خلال التدريب؛ إذ أن عدم استقرار الصعود الثنائي يتفاقم بسبب التعميم في الشبكة، مما يسبب تفويتًا محليًا وتحديثات متأخرة تنتشر إلى الحالات المجاورة و amplifying fluctuations في الاستراتيجية المتبعة.
تظهر الأساليب الحالية للت Stabilization أنها مصممة فقط للمضاعفات العددية، مما يجعلها غير كافية لواجهات الشبكات التي تعتمد على مضاعفات الحالة.
لذلك، نقترح إطار عمل جديد يُعرف بشبكة مضاعف لاغرانج المعزز (Augmented Lagrangian Multiplier Network - ALaM) لتعزيز الاستقرار في تعلم المضاعفات. يتكون ALaM من مكونين رئيسيين: أولاً، يتم إدخال عقوبة تربيعية في لاغرانج المعزز لتعويض تحديثات المضاعف المتأخرة وإنشاء تقعر محلي بالقرب من الأمثل، وبالتالي تقليل الاهتزازات في الاستراتيجية. ثانيًا، يتم تدريب شبكة المضاعف عبر الانحدار المنظم نحو هدف ثنائي، مما يعزز الاستقرار أثناء التدريب ويعزز من التقارب نحو الحل الأمثل.
نحن نضمن، من الناحية النظرية، أن ALaM يضمن تقارب المضاعف وبالتالي يعيد إنتاج الاستراتيجية المثلى للمشكلة المقيدة. وبناءً على هذا الإطار، نقوم بدمج طريقة الممثل الناعم (Soft Actor-Critic - SAC) مع ALaM لتطوير خوارزمية SAC-ALaM.
تظهر التجارب أن خوارزمية SAC-ALaM تتفوق على أفضل المعايير الحديثة في التعلم التعزيزي الآمن من حيث السلامة والعائد، بينما تعزز أيضًا ديناميات التدريب وتتعلم مضاعفات دقيقة لتحديد المخاطر.
شبكة مضاعف لاغرانج المعزز: الحل الأمثل لضمان السلامة في التعلم التعزيزي
تمثل سلامة العمليات تحديًا رئيسيًا في التعلم التعزيزي الحقيقي. وقد قدمت دراسة جديدة نموذج مضاعف لاغرانج المعزز كإطار عمل يضمن convergence فعال لمضاعفات تعتمد على الحالة، مما يحسن الاستقرار والأداء.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
