في عالم الروبوتات، يبقى تنفيذ سياسات التعلم المعزز العميق (Deep Reinforcement Learning - DRL) على الروبوتات الحقيقية واحدًا من التحديات الكبرى. حيث أن الفجوة بين المحاكاة والديناميات الحقيقية تعرقل الكثير من المشاريع. هذا ما يركز عليه البحث الأخير في سياق maneuvering للروبوتات المزدوجة ذات توجيه Ackermann.

تحفظ هذه الروبوتات ضد الحركة الحرة وغير الحرة، مما يضيف قيوداً إضافية على السيطرة. لكي نعالج هذه الإشكالية، قمنا بتوسيع إطار عمل ManeuverNet، الذي تم استخدامه في التحكم بالموضع، لنصل إلى التحكم الكامل بالوضعية (Pose Control)، مما يزيد من تعقيد المهمة.

أحد الجوانب المهمة التي أظهرها البحث هو تأثير عدم اليقين المرتبط بالتحكم، حيث أظهرت النتائج انخفاضًا في معدل النجاح من 100% في بيئات المحاكاة مثل PyBullet إلى 25% في Gazebo عندما تم تطبيق تقييمات أكثر صرامة.

للتغلب على هذه العقبة، تم تبني نهج جديد يُعرف بـ sim-to-sim-to-real، حيث يتم دمج تأثيرات التشغيل المُلاحظة في Gazebo داخل بيئة التدريب في PyBullet. باستخدام DRL بعدة بيئات ومع عناصر مثل SAC وCrossQ، تمكنا من تدريب سياسات تبقى قوية على الرغم من الأخطاء في النمذجة.

كنتيجة لذلك، تم تقليل الفجوة في الأداء بين المحاكيات بشكل كبير، حيث حققت السياسات الجديدة نسبة نجاح تصل إلى 92% في Gazebo، وظلت أكثر من 69% تحت ظروف تقييم أكثر صرامة، والأهم من ذلك، تم إنجاز الانتقال إلى الروبوتات الحقيقية بدون الحاجة لضبط إضافي.

هذه الإنجازات تفتح آفاقًا جديدة في مجال الروبوتات، وتثير تساؤلات حول كيفية تحسين أداء الروبوتات في بيئات مختلفة. ما رأيكم في هذا التطور؟ شاركونا في التعليقات!