Управление транспортным потоком на основе обучения с подкреплением
Работая с сайтом, я даю свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта обрабатывается системой Яндекс.Метрика
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Управление транспортным потоком на основе обучения с подкреплением

idМинаков Е.И., Хазов Н.И. 

УДК 004.89
DOI: 10.26102/2310-6018/2026.55.4.015

  • Аннотация
  • Список литературы
  • Об авторах

Пробки на дорогах часто возникают из-за неэффективного управления светофорами на перекрестках, то есть из-за того, что их настройки недостаточно адаптированы к конкретным условиям. В настоящее время активно ведутся зарубежные исследования в области применения методов машинного обучения с подкреплением для оптимизации транспортных потоков на перекрестках, что еще раз показывает актуальность проблемы. Перспектива применения обучения с подкреплением заключается в способности управлять динамикой сложных процессов без вмешательства человека. Для поддержания эффективности и безопасности перемещения автомобилей в городских условиях существуют системы, управляющие потоками транспорта с помощью светофорных объектов. В работе рассмотрены существующие типы систем управления транспортными потоками. В ходе проведенного анализа выявлены их положительные и негативные качества. В статье предложена система интеллектуального управления, основанная на принципах обучения с подкреплением, дополненная аппроксиматором, в качестве которого используется нейронная сеть. Архитектура сети представляет собой многослойный перцептрон с двумя скрытыми слоями с ReLU функциями активации. Представлен процесс обучения агента и результаты моделирования системы управления в среде микроскопического моделирования SUMO. Результаты представлены в виде графика динамики обучения агента, тепловых карт перекрестков при имитации движения в час пик и при ДТП до воздействия и после. Предложенная система позволяет увеличить интенсивность движения в сети перекрестков на 40 % и 25 % при движении в час-пик и ДТП соответственно. Помимо этого, отражены дальнейшие перспективы ее развития.

1. Raeisi M., Mahboob A.S. Intelligent Control of Urban Intersection Traffic Light Based on Reinforcement Learning Algorithm. In: 2021 26th International Computer Conference, Computer Society of Iran (CSICC), 03–04 March 2021, Tehran, Iran. IEEE; 2021. P. 1–5. https://doi.org/10.1109/CSICC52343.2021.9420622

2. Zhou M., Yu Y., Qu X. Development of an Efficient Driving Strategy for Connected and Automated Vehicles at Signalized Intersections: A Reinforcement Learning Approach. IEEE Transactions on Intelligent Transportation Systems. 2020;21(1):433–443. https://doi.org/10.1109/TITS.2019.2942014

3. Ducrocq R., Farhi N. Deep Reinforcement Q-Learning for Intelligent Traffic Signal Control with Partial Detection. International Journal of Intelligent Transportation Systems Research. 2023;21(1):192–206. https://doi.org/10.1007/s13177-023-00346-4

4. Farazi N.P., Ahamed T., Barua L., Zou B. Deep Reinforcement Learning and Transportation Research: A Comprehensive Review. arXiv. URL: https://doi.org/10.48550/arXiv.2010.06187 [Accessed 31st October 2025].

5. Qadri S.Sh.S.M., Gökçe M.A., Öner E. State-of-art review of traffic signal control methods: challenges and opportunities. European Transport Research Review. 2020;12(1). https://doi.org/10.1186/s12544-020-00439-1

6. Рутковский В.Н., Капский Д.В. Анализ, разработка и реализация адаптивных алгоритмов (гибкого) светофорного регулирования. Системный анализ и прикладная информатика. 2023;(3):4–16. https://doi.org/10.21122/2309-4923-2023-3-4-16

7. Агафонов А.А., Ефименко Е.Ю. Сравнение алгоритмов управления сигналами светофоров в крупномасштабном сценарии моделирования движения транспортных средств. В сборнике: Информационные технологии и нанотехнологии (ИТНТ-2022): Сборник трудов по материалам VIII Международной конференции и молодежной школы: Том 3, 23–27 мая 2022 года, Самара, Россия. Самара: Самарский национальный исследовательский университет имени академика С.П. Королева; 2022. С. 031382.

8. Агафонов А.А., Юмаганов А.С., Мясников В.В. Адаптивное управление дорожными сигналами на основе нейросетевого прогноза максимального взвешенного потока. Автометрия. 2022;58(5):85–97. https://doi.org/10.15372/AUT20220510

9. Dake D.K., Gadze J.D., Klogo G.S., Nunoo-Mensah H. Traffic Engineering in Software-defined Networks using Reinforcement Learning: A Review. International Journal of Advanced Computer Science and Applications. 2021;12(5):330–345.

10. Fadila J.N., Wahab N.H.A., Alshammari A., et al. Comprehensive review of smart urban traffic management in the context of the fourth industrial revolution. IEEE Access. 2024;12:196866–196886. https://doi.org/10.1109/access.2024.3509572

11. Liang X., Du X., Wang G., Han Zh. A Deep Reinforcement Learning Network for Traffic Light Cycle Control. IEEE Transactions on Vehicular Technology. 2019;68(2):1243–1253. https://doi.org/10.1109/TVT.2018.2890726

12. Kunjir M., Chawla S. Offline Reinforcement Learning for Road Traffic Control. arXiv. URL: https://doi.org/10.48550/arXiv.2201.02381 [Accessed 20th October 2025].

13. Tan K.L., Sharma A., Sarkar S. Robust Deep Reinforcement Learning for Traffic Signal Control. Journal of Big Data Analytics in Transportation. 2020;2(3):263–274. https://doi.org/10.1007/s42421-020-00029-6

14. Орлова Е.В. Обучение с подкреплением как технология искусственного интеллекта для решения социально-экономических задач: оценка производительности алгоритмов. п-Economy. 2023;16(5):38–50. https://doi.org/10.18721/JE.16503

15. Saadi A., Abghour N., Chiba Z., Moussaid Kh., Ali S. A survey of reinforcement and deep reinforcement learning for coordination in intelligent traffic light control. Journal of Big Data. 2025;12(1). https://doi.org/10.1186/s40537-025-01104-x

16. Корчагин А.П. Гибридная система обучения агентов с использованием A2C и эволюционных стратегий. Моделирование, оптимизация и информационные технологии. 2025;13(3). https://doi.org/10.26102/2310-6018/2025.50.3.029

Минаков Евгений Иванович
Доктор технических наук, профессор

ORCID |

Тульский государственный университет

Тула, Российская Федерация

Хазов Никита Ильич

Тульский государственный университет

Тула, Российская Федерация

Ключевые слова: транспортный поток, управление дорожным движением, обучение с подкреплением, нейронная сеть, машинное обучение, адаптивное управление

Для цитирования: Минаков Е.И., Хазов Н.И. Управление транспортным потоком на основе обучения с подкреплением. Моделирование, оптимизация и информационные технологии. 2026;14(4). URL: https://moitvivt.ru/ru/journal/article?id=2223 DOI: 10.26102/2310-6018/2026.55.4.015

© Минаков Е.И., Хазов Н.И. Статья опубликована на условиях лицензии Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NS 4.0)
59

Полный текст статьи в PDF

Скачать JATS XML

Поступила в редакцию 13.02.2026

Поступила после рецензирования 17.04.2026

Принята к публикации 22.04.2026

Опубликована 30.04.2026