في ظل التطورات السريعة في الذكاء الاصطناعي، تمثل تقنية تعلم التعزيز الواعي بالتأخير (Delay-Aware Reinforcement Learning) أداة قوية للمساعدة في دمج المركبات على الطرق السريعة بشكل آمن وفعال. تواجه أنظمة القيادة الذاتية تحديات جمة بسبب المعلومات حول الحالة المتأخرة وغير الكاملة، مما يمكن أن يؤثر سلبًا على الأداء في مواقف حقيقية.

تنتشر على الطرق السريعة وحدات طريق متطورة (RSU) مزودة بتقنيات حديثة تتيح لها رصد حركة المرور القريبة وإيصال تقديرات الحالة إلى المركبات، إلا أن تأخيرات التواصل عبر البنية التحتية قد تؤدي إلى تأثيرات عشوائية واسعة النطاق.

تم تقديم إطار عمل جديد يُعرف بـ DAROM، أو تعلم التعزيز الواعي بالتأخير لدمج المركبات على طرق الدخول، والذي يتميز بقدرته على التعامل مع هذه التأخيرات العشوائية. يتم نمذجة المشكلة كعملية قرار ماركوفي مع تأخير عشوائي (RDMDP)، مما يسمح بتطوير وكيل تعلم موحد يتحكم في سلوك المركبة طوليًا وعرضيًا.

يتضمن النظام الجديد مشفرًا واعيًا بالتأخير يفسر المعلومات المؤجلة ويجمع بين تاريخ الإجراءات وتأثيرات التأخير لتقدير الحالة الحالية للمركبة. مما يضيف إلى ذلك، تم دمج وحدة تحكم آمنة تعتمد على الفيزياء لتقليل مخاطر التصادم أثناء الدمج.

تظهر التجارب التي تم إجراؤها في محاكاة حركة المرور (SUMO) استخدام بيانات حركة المرور الواقعية من مجموعة بيانات (NGSIM) تفوق أداء DAROM باستمرار على الأساليب التقليدية لتعلم التعزيز، حتى في ظروف المرور العالية الكثافة. حيث أظهر المشفر المعتمد على الوحدة التكرارية البوابية (GRU) نجاحًا بنسبة أكثر من 99% في حركة المرور الكثيفة مع تأخيرات عشوائية تصل إلى ثانيتين.

هذه التطورات ليست مجرد تحسينات تقنية، وإنما تساهم أيضًا في تعزيز سلامة نقل المركبات والمساعدة في تحقيق حلم السيارات الذاتية القيادة بمزيد من الأمان والفعالية.