تشهد الصناعة حالياً تحولاً نحو الآلات الأوتوماتيكية المتصلة بالشبكات، والتي تستطيع الكشف عن التغيرات والتكيف معها، بما في ذلك حالات الأعطال الميكانيكية. في الوقت الذي تعتمد فيه التصميمات التقليدية على مضاعفة الأجهزة وإعادة توجيه منطق التحكم، تظهر خوارزميات التعلم المعزز (Reinforcement Learning) كبديل مبتكر يتيح التعلم والتكيف.
في دراسة مبتكرة، تم تقديم أول مقارنة منهجية بين خوارزميتين من خوارزميات التعلم المعزز، وهما: تحسين السياسة القريبة (Proximal Policy Optimization - PPO) وممثل الممثل اللين (Soft Actor-Critic - SAC). تسعى الدراسة إلى دمج قدرات تحمل الأعطال في أنظمة التحكم، مستعرضةً أربع استراتيجيات لنقل المعرفة: الاحتفاظ أو التخلي عن معلمات النموذج، والاحتفاظ أو التخلي عن محتويات التخزين.
تم تقييم الأداء في بيئتين من بيئات Gymnasium، هما: Ant-v5 وFetchReachDense-v3. أظهرت النتائج قدرة الشفاء السريع من الأعطال مع وجود تبادلات واضحة. في Ant-v5، أدى الاحتفاظ بمعلمات PPO إلى تعزيز العوائد المبكرة، ما يجعله الاختيار الأكثر أماناً خلال جميع الأعطال. بالمقابل، كان أداء SAC متبايناً، حيث يعتمد الأداء المبكر على ما إذا كان قد تم الاحتفاظ بوحدة التكرار: مفيد عندما تتطابق التجارب السابقة مع الديناميات الحالية، لكنه ضار عندما تتباين.
أما في تجربة FetchReachDense-v3، فقد كانت نتائج استبعاد كلاً من معلمات PPO وSAC هي الأكثر فعالية في ظل تلف المستشعرات. عبر المهام المختلفة، تمكنت كلا الخوارزميتين من استعادة أداء قريب من الطبيعي في دقائق في الإعدادات ذات الأبعاد المنخفضة وداخل أيام في الإعدادات عالية الأبعاد، مما يبرز تبادل واضح بين سرعة التكيف والأداء النهائي.
تشير هذه النتائج إلى أن التعلم المعزز يمكن أن يقدم تحملًا قويًا للأعطال، موفراً إرشادات عملية للممارسين في المجال.
ثورة في تحمل أعطال الأجهزة: كيف يعزز التعلم المعزز (Reinforcement Learning) أداء الآلات!
تسعى الصناعة إلى تطوير آلات ذاتية الاتصال قادرة على اكتشاف التغيرات والتكيف معها، بما في ذلك الأعطال الميكانيكية. هذا البحث يسلط الضوء على مقارنة بين خوارزميتي التعلم المعزز لتعزيز تحمل الأعطال في التحكم.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
