References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2026.55.4.015

2223

Управление транспортным потоком на основе обучения с подкреплением

Traffic flow management based on reinforcement learning

0000-0002-3234-9907

Минаков

Евгений Иванович

Minakov

Evgeniy Ivanovich

eminakov@bk.ru aff-1

Хазов

Никита Ильич

Khazov

Nikita Ilyich

nikita.hazov511@yandex.ru aff-2

Тульский государственный университет Tula State University

01 01 2026

1 1

10.26102/2310-6018/2026.55.4.015

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

Пробки на дорогах часто возникают из-за неэффективного управления светофорами на перекрестках, то есть из-за того, что их настройки недостаточно адаптированы к конкретным условиям. В настоящее время активно ведутся зарубежные исследования в области применения методов машинного обучения с подкреплением для оптимизации транспортных потоков на перекрестках, что еще раз показывает актуальность проблемы. Перспектива применения обучения с подкреплением заключается в способности управлять динамикой сложных процессов без вмешательства человека. Для поддержания эффективности и безопасности перемещения автомобилей в городских условиях существуют системы, управляющие потоками транспорта с помощью светофорных объектов. В работе рассмотрены существующие типы систем управления транспортными потоками. В ходе проведенного анализа выявлены их положительные и негативные качества. В статье предложена система интеллектуального управления, основанная на принципах обучения с подкреплением, дополненная аппроксиматором, в качестве которого используется нейронная сеть. Архитектура сети представляет собой многослойный перцептрон с двумя скрытыми слоями с ReLU функциями активации. Представлен процесс обучения агента и результаты моделирования системы управления в среде микроскопического моделирования SUMO. Результаты представлены в виде графика динамики обучения агента, тепловых карт перекрестков при имитации движения в час пик и при ДТП до воздействия и после. Предложенная система позволяет увеличить интенсивность движения в сети перекрестков на 40 % и 25 % при движении в час-пик и ДТП соответственно. Помимо этого, отражены дальнейшие перспективы ее развития.

Traffic jams often occur due to inefficient control of traffic lights at intersections, that is, due to the fact that their settings are not sufficiently adapted to specific conditions. Currently, foreign research is actively underway in the field of applying machine learning methods with reinforcement to optimize traffic flows at intersections, which once again shows the urgency of the problem. The prospect of using reinforcement learning lies in the ability to control the dynamics of complex processes without human intervention. To maintain the efficiency and safety of moving cars in urban environments, there are systems that control traffic flows using traffic lights. The paper considers the existing types of traffic flow management systems. The analysis revealed their positive and negative qualities. The article proposes an intelligent control system based on the principles of reinforcement learning, supplemented by an approximator using a neural network. The network architecture is a multi-layered perceptron, with two hidden layers with ReLU activation functions. The process of agent training and the results of control system modeling in the SUMO microscopic modeling environment are presented. The results are presented in the form of a graph of the dynamics of agent training, heat maps of intersections when simulating rush hour traffic and in case of an accident before and after exposure. The proposed system makes it possible to increase the traffic intensity in the intersection network by 40% and 25% during rush hour and traffic accidents, respectively. In addition, the future prospects of its development are reflected.

транспортный поток управление дорожным движением обучение с подкреплением нейронная сеть машинное обучение адаптивное управление

traffic flow traffic management reinforcement learning neural networks machine learning adaptive management

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Raeisi M., Mahboob A.S. Intelligent Control of Urban Intersection Traffic Light Based on Reinforcement Learning Algorithm. In: 2021 26th International Computer Conference, Computer Society of Iran (CSICC), 03–04 March 2021, Tehran, Iran. IEEE; 2021. P. 1–5. https://doi.org/10.1109/CSICC52343.2021.9420622

Zhou M., Yu Y., Qu X. Development of an Efficient Driving Strategy for Connected and Automated Vehicles at Signalized Intersections: A Reinforcement Learning Approach. IEEE Transactions on Intelligent Transportation Systems. 2020;21(1):433–443. https://doi.org/10.1109/TITS.2019.2942014

Ducrocq R., Farhi N. Deep Reinforcement Q-Learning for Intelligent Traffic Signal Control with Partial Detection. International Journal of Intelligent Transportation Systems Research. 2023;21(1):192–206. https://doi.org/10.1007/s13177-023-00346-4

Farazi N.P., Ahamed T., Barua L., Zou B. Deep Reinforcement Learning and Transportation Research: A Comprehensive Review. arXiv. URL: https://doi.org/10.48550/arXiv.2010.06187 [Accessed 31st October 2025].

Qadri S.Sh.S.M., Gökçe M.A., Öner E. State-of-art review of traffic signal control methods: challenges and opportunities. European Transport Research Review. 2020;12(1). https://doi.org/10.1186/s12544-020-00439-1

Рутковский В.Н., Капский Д.В. Анализ, разработка и реализация адаптивных алгоритмов (гибкого) светофорного регулирования. Системный анализ и прикладная информатика. 2023;(3):4–16. https://doi.org/10.21122/2309-4923-2023-3-4-16

Агафонов А.А., Ефименко Е.Ю. Сравнение алгоритмов управления сигналами светофоров в крупномасштабном сценарии моделирования движения транспортных средств. В сборнике: Информационные технологии и нанотехнологии (ИТНТ-2022): Сборник трудов по материалам VIII Международной конференции и молодежной школы: Том 3, 23–27 мая 2022 года, Самара, Россия. Самара: Самарский национальный исследовательский университет имени академика С.П. Королева; 2022. С. 031382.

Агафонов А.А., Юмаганов А.С., Мясников В.В. Адаптивное управление дорожными сигналами на основе нейросетевого прогноза максимального взвешенного потока. Автометрия. 2022;58(5):85–97. https://doi.org/10.15372/AUT20220510

Dake D.K., Gadze J.D., Klogo G.S., Nunoo-Mensah H. Traffic Engineering in Software-defined Networks using Reinforcement Learning: A Review. International Journal of Advanced Computer Science and Applications. 2021;12(5):330–345.

Fadila J.N., Wahab N.H.A., Alshammari A., et al. Comprehensive review of smart urban traffic management in the context of the fourth industrial revolution. IEEE Access. 2024;12:196866–196886. https://doi.org/10.1109/access.2024.3509572

Liang X., Du X., Wang G., Han Zh. A Deep Reinforcement Learning Network for Traffic Light Cycle Control. IEEE Transactions on Vehicular Technology. 2019;68(2):1243–1253. https://doi.org/10.1109/TVT.2018.2890726

Kunjir M., Chawla S. Offline Reinforcement Learning for Road Traffic Control. arXiv. URL: https://doi.org/10.48550/arXiv.2201.02381 [Accessed 20th October 2025].

Tan K.L., Sharma A., Sarkar S. Robust Deep Reinforcement Learning for Traffic Signal Control. Journal of Big Data Analytics in Transportation. 2020;2(3):263–274. https://doi.org/10.1007/s42421-020-00029-6

Орлова Е.В. Обучение с подкреплением как технология искусственного интеллекта для решения социально-экономических задач: оценка производительности алгоритмов. п-Economy. 2023;16(5):38–50. https://doi.org/10.18721/JE.16503

Saadi A., Abghour N., Chiba Z., Moussaid Kh., Ali S. A survey of reinforcement and deep reinforcement learning for coordination in intelligent traffic light control. Journal of Big Data. 2025;12(1). https://doi.org/10.1186/s40537-025-01104-x

Корчагин А.П. Гибридная система обучения агентов с использованием A2C и эволюционных стратегий. Моделирование, оптимизация и информационные технологии. 2025;13(3). https://doi.org/10.26102/2310-6018/2025.50.3.029

The authors declare that there are no conflicts of interest present.