في عالم اليوم، حيث تزداد الحركة المرورية بشكل مستمر، تبرز الحاجة الملحة لتحسين أنظمة التحكم بإشارات المرور (Traffic Signal Control - TSC). تقليدياً، كانت العديد من الطرق المبنية على التعلم المعزز تواجه صعوبة في تقديم قرارات شفافة وقابلة للتفسير، مما أثر على ثقة الجمهور. لذا، فإن تقديم OracleTSC يمثل نقطة تحول هامة في هذا السياق.

تقوم OracleTSC بتطبيق آليتين مبتكرتين لتحسين فعالية أنظمة TSC المدعومة بنماذج لغوية كبيرة (Large Language Models - LLMs). الآلية الأولى هي "آلية عقبة المكافأة"، التي تعمل على تصفية إشارات التعلم الضعيفة من خلال خصم عتبة مضبوطة من المكافآت البيئية. أما الثانية، فهي "تنظيم عدم اليقين"، الذي يعزز احتمال الاستجابة المختارة، مما يشجع على اتخاذ قرارات متسقة عبر المخرجات المختلفة.

أظهرت التجارب على معيار LibSignal أن OracleTSC سمحت لنموذج LLaMA3-8B بتحقيق تحسينات ملحوظة في كفاءة المرور، حيث سجلت انخفاضاً بنسبة 75% في زمن السفر و67% في طول الطوابير مقارنة بالنموذج المسبق الذي تم تدريبه. ما يميز OracleTSC أيضًا هو قدرتها على التعميم العبر تقاطعات الطرق، حيث تمكنت من نقل سياسات مُدربة من تقاطع إلى آخر مع تخفيضات ملحوظة في زمن السفر وطول الطوابير دون الحاجة إلى إعادة التدريب.

باختصار، توضح نتائج OracleTSC كيف يمكن أن يؤدي تشكيل المكافآت المعتمد على عدم اليقين إلى تحسين استقرار وفعالية التعزيز الدقيق (Reinforcement Fine-Tuning) في أنظمة التحكم بإشارات المرور. هل تعتقد أن هذا التطور قد يغير مفهوم إدارة المرور في المدن؟ شاركونا آرائكم في التعليقات!