تواجه محاكاة المرور المغلق تحديات جمّة تتعلق بتصميم وكلاء ذكيين يجمعون بين القابلية للتوسع والسلوك الواقعي. في الآونة الأخيرة، برهنت أساليب التعلم المعزز عبر اللعب الذاتي (Self-Play Reinforcement Learning) على قدرتها الكبيرة على القابلية للتوسع، إلا أن استراتيجياتها تحت مستوى التفاعل الاجتماعي لا تعكس سلوك السائقين البشر بدقة.
لذلك، تم اقتراح هيكل هرمي يُعتبر قفزة نوعية عن اللعب الذاتي من خلال دمج التفاعل عالي المستوى بين عدة وكلاء مع تحقيق الحركة المستمرة على المستوى المنخفض. يشمل هذا النموذج وحدة تعلم تعزيزي متعددة الوكلاء بأسلوب ستاكيبيرغ (Stackelberg-style Multi-Agent Reinforcement Learning)، تقوم بتوليد أوامر توجيه تفاعلية دقيقة. هذه الأوامر تؤثر على وحدة الحركة المستمرة، مما يترجم النوايا الاستراتيجية إلى تسلسلات تحكم تتفاعل بشكل واقعي مع المشهد المحيط.
للتغلب على التحديات المرتبطة بالتوزيع في التنفيذ المغلق، تم تقديم أسلوب تدريب مشترك هجين يجمع بين التعلم المعزز مع إشراف استرداد مساعد.
أعطت التجارب التي أجريت على شبكة حضرية تعتمد على برنامج SUMO نتائج مثيرة، حيث أثبت الإطار المقترح تفوقاً في سلاسة التحكم والسلامة مقارنة بأساليب اللعب الذاتي وطرق تقليد السلوك السلبي، فضلاً عن المحافظة على كفاءة الحركة المرورية.
تجاوز اللعب الذاتي: تعزيز التفكير الهرمي في محاكاة الحركة المستمرة بالمرور المغلق
في عالم محاكاة المرور المغلق، تتطلب الأنظمة الذكية وكلاءً قادرين على التكيف والتفاعل بواقعية. تقدم دراسة جديدة نموذجاً هرمياً يجمع بين التفكير الاستراتيجي والسلوك الواقعي للسائقين البشر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
