Traffic light management using reinforcement learning methods
Abstract
Traffic lights have been around since 19th century, and aims to ease the chaos happening
in intersections. It’s recorded that, people spend hours in traffic leading degradations in
human health and environment. Even though its main purpose is to reduce traffic
congestion and decrease the number of accidents, most of the approaches cannot adapt
very well to fast changing dynamics and growing demands of the intersections with
modern world developments. Fixed-time approaches use predefined settings, and to
maximize its success time slots are identified. Although there are successful attempts,
they don’t answer today’s demands of traffic. To overcome this problem, adaptive
controllers are developed, and detectors and sensors are added to systems to enable
adoption and dynamism. Recently, reinforcement learning has shown its capability to
learn the dynamics of complex environments such as urban traffic. Although it was
studied in single junction systems, one of the problems was the lack of consistency with
how the real world system works. Most of the systems assume the environment is fully
observable or actions would be freely executed using simulators. This study aims to
merge usefulness of reinforcement learning methods with real world constraints. The
experiments conducted have shown that, with queue data obtained from sensors located
at the beginning and at the end of the roads and limited action spaces it works very well
and A2C is able to learn the dynamics of the environment while converging and stabilizes
itself in a respectively short duration. Trafik ışıkları, 19. yüzyıldan bu yana aktif olarak kavşaklardaki karmaşıklığı ve
düzensizliği azaltmak amacı ile faaliyet gösteriyorlar. Kaynaklara göre, insanlar trafikte
saatler geçiriyor, ki bu da hem insan sağlığı hem de çevre bakımından bozulmalara sebep
oluyor. Trafik ışıklarının görevi trafik sıkışıklığını ve kaza sayısını azaltmak olsa da, şu
an çalışan çoğu sistem modern zamanın gelişmeleri ile artan isteklere ve hızlı değişen
kavşak dinamiklerine uyum sağlayamıyor. Bunlardan biri olan sabit zamanlı sistemler,
önceden tanımlanmış ayarları kullanıyorlar ve performansını daha da artırmak için zaman
dilimleri tanımlanıyor. Başarılı girişimler ve düzeltmeler görülse de, bugünün
ihtiyaçlarına cevap veremiyorlar. Daha sonra, sistemlere sensörler ve detektörler
eklenerek daha akıllı, dinamik ve adaptif sistemler geliştirildi. Son çalışmalar ise,
pekiştirmeli öğrenmenin ve özellikle pekiştirmeli derin öğrenmenin kavşaklar gibi
karmaşık ortamların dinamiklerini öğrenebildiğini gösterdi. Tekli kavşaklarda buna
yönelik çalışmalar olmasına rağmen, gerçek dünya ile tam olarak tutarlı olmadığı,
simülatörler vasıtasıyla tüm ortamın görünür ve karar verilen aksiyonların sınırsız
olabileceğinin varsayıldığı fark edildi. Bu çalışma, pekiştirmeli öğrenme yöntemlerinin
başarısı ve sağladığı fayda ile gerçek dünyanın sınırlarını birleştirmeyi hedeflemektedir.
Bu çalışmada yapılmış olan deneyler gösteriyor ki, her bir yolun başına ve sonuna
yerleştirilmiş olan sensörler vasıtası ile elde edilen kuyruk değerleri ve kısıtlı aksiyonlar
kullanılarak geliştirilen pekiştirmeli öğrenme yöntemleri iyi bir performans sergiliyor ve
özellikle A2C yöntemi çevrenin dinamiklerini öğrenerek nispeten kısa sürede yakınsıyor
ve stabil hale geliyor.