أحدثت تقنيات التعلم المعزز (Reinforcement Learning) ثورة في مجال روبوتات الحركة الرباعية، لكنها غالباً ما تعول على وظائف مكافأة ثابتة وغير مرنة. الأمر الذي يُعيق قدرة هذه الأنظمة على تفسير السياسات المُتعلمة والتحكم في سلوكيات الحركة بشكل واضح.
في مقال جديد، تم تقديم إطار عمل مبتكر يتيح تحديد خطوات الحركة باستخدام قيود مُعرفة في منطق الزمن المستمر (Signal Temporal Logic, STL). يشمل هذا الإطار قيود السلامة، وقيود تزامن الحركات، وتتبع الأوامر، وحدود التشغيل.
يتضمن النظام الجديد آلية تشكيل مكافآت تتيح للمتعلِّمين التواصل مع بيئة التدريب بطريقة أكثر فعالية. من خلال استخدام نماذج STL المعاملاتية، يُمكن تشكيل مكافآت واضحة وموجهة للأداء وفقا لثلاثة أنظمة سرعات (المشي-الجري، الجري، والقفز)، مما يؤدي إلى تحسين القدرة على تتبع السرعة وزيادة استقرار التدريب.
تم تطبيق هذه الأساليب على روبوت Barkour الرباعي من Google باستخدام المحاكاة في MuJoCo XLA، مع تعزيز سرعة التدريب عبر المعالجة المتوازية وتحسين استجابة السياسات المتعلمة من خلال تدرجات مكافأة مدعومة.
يعكس هذا النهج نتائج مُذهلة، إذ أظهر أن المكافآت المُشكلة بواسطة STL تُسهم في تحقيق تتبع سرعات أكثر دقة وتدريب أكثر استقرارًا. لا تفوتوا مشاهدة مقاطع الفيديو المثيرة على موقع المشروع!
تعلم الحركة الرباعية الوعي بالخطوات باستخدام مواصفات منطق الزمن المستمر!
استكشف كيف يمكن لتقنيات التعلم المعزز أن تعزز أداء الروبوتات الرباعية أثناء الحركة. هذه الطريقة الجديدة تستخدم منطق الزمن المستمر لوضع معايير للتحكم بسلاسة في خطوات الروبوت.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
