تشهد الأنظمة الهوائية المستقلة، وخاصة الطائرات بدون طيار (UAV)، تطوراً سريعاً يسمح لها بالانتشار في مجالات متعددة، مثل التفتيش والمراقبة البيئية والإنقاذ. ومع تزايد الطلب على التنقل المستقل الموثوق، تبرز تحديات جديدة تتعلق بالتوجيه داخل البيئات الكثيفة.

تعتبر تقنيات التعلم المعزز (Reinforcement Learning) فعالة، ولكنها غالباً ما تفتقر إلى آليات الأمان الواضحة، مما يؤدي إلى استكشاف غير آمن وتدريب غير مستقر وسلوكيات محفوفة بالمخاطر، وخصوصا خلال الرحلات السريعة. حتى في أساليب التعلم المعزز الآمن، يُفرض الأمان غالباً من خلال إسقاط مخرجات السياسات على مجموعة عمل آمنة، مما قد يؤدي إلى عدم الاستقرار.

لحل هذه المشكلة، تم اقتراح إطار عمل جديد يدمج بين الإدراك والتحكم مع قيود السلامة لتوجيه الطائرات بدون طيار. يعتمد هذا الإطار على شبكة خفيفة الوزن تقوم بتشفير الملاحظات النادرة إلى ميزات تتعلق بمخاطر الاصطدام باستخدام التوصيلات غير المتناظرة والفصل العميق.

يتم صياغة المهمة كعملية قرار ماركوف مقيدة ضمن هيكل تحكم هرمي، ويتم حلها باستخدام خوارزمية PPO الآمنة المستندة إلى لاغرانج. كما يعزز التعلم المنهجي استقرار التدريب.

أظهرت التجارب التي أُجريت مع كثافات عوائق وسرعات طيران مختلفة أن النظام الجديد يتفوق على الممارسات الحالية من حيث معدلات النجاح، وزيادة الأمان، والكفاءة العملية.