مع تطور المعارك الجوية نحو الاشتباكات المتعددة للطائرات خارج مجال الرؤية (Beyond-Visual-Range BVR)، تواجه الطائرات القتالية بدون طيار (Unmanned Combat Aerial Vehicles UCAVs) تحديات بارزة تتعلق بعمق حالات الفضاء، أوامر العمل المنفصلة، والبيئات الديناميكية المعادية. في إطار هذه التحديات، نقدم نموذجًا مبتكرًا يُعرف بـ ACE-MAPPO، وهو إطار عمل يجمع بين التعلم المعزز المتعدد الوكلاء (Multi-Agent Reinforcement Learning MARL) والخوارزميات التطورية.

يتميز نموذج ACE-MAPPO بإدخال آلية تحديث وراثية ناعمة لتعزيز تنوع السكان والحد من التقارب إلى الاختيارات المحلية القصيرة. ولمزيد من الفعالية، تم استخدام استراتيجية إعادة تشغيل المسارات ذات الأولوية المدعومة Evolutive لتطبيق الاستفادة القصوى من العينات ذات القيمة العالية النادرة. بالإضافة إلى ذلك، تحتوي الآلية على منهجية تعلم تطورية عدائية، تسمح بالتكيف التدريجي مع زيادة الصعوبة.

تتضمن اختباراتنا المكثفة إثبات أن ACE-MAPPO يتفوق على نموذج MAPPO وخوارزميات أخرى في مجالات استقرار التدريب، سرعة التقارب، ونسبة الفوز، مما يؤكد فعاليتها في سيناريوهات القتال الجوي التعاوني المتعددة.