تواجه محاكاة المرور المغلق تحديات جمّة تتعلق بتصميم وكلاء ذكيين يجمعون بين القابلية للتوسع والسلوك الواقعي. في الآونة الأخيرة، برهنت أساليب التعلم المعزز عبر اللعب الذاتي (Self-Play Reinforcement Learning) على قدرتها الكبيرة على القابلية للتوسع، إلا أن استراتيجياتها تحت مستوى التفاعل الاجتماعي لا تعكس سلوك السائقين البشر بدقة.

لذلك، تم اقتراح هيكل هرمي يُعتبر قفزة نوعية عن اللعب الذاتي من خلال دمج التفاعل عالي المستوى بين عدة وكلاء مع تحقيق الحركة المستمرة على المستوى المنخفض. يشمل هذا النموذج وحدة تعلم تعزيزي متعددة الوكلاء بأسلوب ستاكيبيرغ (Stackelberg-style Multi-Agent Reinforcement Learning)، تقوم بتوليد أوامر توجيه تفاعلية دقيقة. هذه الأوامر تؤثر على وحدة الحركة المستمرة، مما يترجم النوايا الاستراتيجية إلى تسلسلات تحكم تتفاعل بشكل واقعي مع المشهد المحيط.

للتغلب على التحديات المرتبطة بالتوزيع في التنفيذ المغلق، تم تقديم أسلوب تدريب مشترك هجين يجمع بين التعلم المعزز مع إشراف استرداد مساعد.

أعطت التجارب التي أجريت على شبكة حضرية تعتمد على برنامج SUMO نتائج مثيرة، حيث أثبت الإطار المقترح تفوقاً في سلاسة التحكم والسلامة مقارنة بأساليب اللعب الذاتي وطرق تقليد السلوك السلبي، فضلاً عن المحافظة على كفاءة الحركة المرورية.