<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2026.55.4.015</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">2223</article-id>
      <title-group>
        <article-title xml:lang="ru">Управление транспортным потоком на основе обучения с подкреплением</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Traffic flow management based on reinforcement learning</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0000-0002-3234-9907</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Минаков</surname>
              <given-names>Евгений Иванович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Minakov</surname>
              <given-names>Evgeniy Ivanovich</given-names>
            </name>
          </name-alternatives>
          <email>eminakov@bk.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Хазов</surname>
              <given-names>Никита Ильич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Khazov</surname>
              <given-names>Nikita Ilyich</given-names>
            </name>
          </name-alternatives>
          <email>nikita.hazov511@yandex.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Тульский государственный университет</aff>
        <aff xml:lang="en">Tula State University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Тульский государственный университет</aff>
        <aff xml:lang="en">Tula State University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2026.55.4.015</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=2223"/>
      <abstract xml:lang="ru">
        <p>Пробки на дорогах часто возникают из-за неэффективного управления светофорами на перекрестках, то есть из-за того, что их настройки недостаточно адаптированы к конкретным условиям. В настоящее время активно ведутся зарубежные исследования в области применения методов машинного обучения с подкреплением для оптимизации транспортных потоков на перекрестках, что еще раз показывает актуальность проблемы. Перспектива применения обучения с подкреплением заключается в способности управлять динамикой сложных процессов без вмешательства человека. Для поддержания эффективности и безопасности перемещения автомобилей в городских условиях существуют системы, управляющие потоками транспорта с помощью светофорных объектов. В работе рассмотрены существующие типы систем управления транспортными потоками. В ходе проведенного анализа выявлены их положительные и негативные качества. В статье предложена система интеллектуального управления, основанная на принципах обучения с подкреплением, дополненная аппроксиматором, в качестве которого используется нейронная сеть. Архитектура сети представляет собой многослойный перцептрон с двумя скрытыми слоями с ReLU функциями активации. Представлен процесс обучения агента и результаты моделирования системы управления в среде микроскопического моделирования SUMO. Результаты представлены в виде графика динамики обучения агента, тепловых карт перекрестков при имитации движения в час пик и при ДТП до воздействия и после. Предложенная система позволяет увеличить интенсивность движения в сети перекрестков на 40 % и 25 % при движении в час-пик и ДТП соответственно. Помимо этого, отражены дальнейшие перспективы ее развития.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>Traffic jams often occur due to inefficient control of traffic lights at intersections, that is, due to the fact that their settings are not sufficiently adapted to specific conditions. Currently, foreign research is actively underway in the field of applying machine learning methods with reinforcement to optimize traffic flows at intersections, which once again shows the urgency of the problem. The prospect of using reinforcement learning lies in the ability to control the dynamics of complex processes without human intervention. To maintain the efficiency and safety of moving cars in urban environments, there are systems that control traffic flows using traffic lights. The paper considers the existing types of traffic flow management systems. The analysis revealed their positive and negative qualities. The article proposes an intelligent control system based on the principles of reinforcement learning, supplemented by an approximator using a neural network. The network architecture is a multi-layered perceptron, with two hidden layers with ReLU activation functions. The process of agent training and the results of control system modeling in the SUMO microscopic modeling environment are presented. The results are presented in the form of a graph of the dynamics of agent training, heat maps of intersections when simulating rush hour traffic and in case of an accident before and after exposure. The proposed system makes it possible to increase the traffic intensity in the intersection network by 40% and 25% during rush hour and traffic accidents, respectively. In addition, the future prospects of its development are reflected.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>транспортный поток</kwd>
        <kwd>управление дорожным движением</kwd>
        <kwd>обучение с подкреплением</kwd>
        <kwd>нейронная сеть</kwd>
        <kwd>машинное обучение</kwd>
        <kwd>адаптивное управление</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>traffic flow</kwd>
        <kwd>traffic management</kwd>
        <kwd>reinforcement learning</kwd>
        <kwd>neural networks</kwd>
        <kwd>machine learning</kwd>
        <kwd>adaptive management</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Raeisi M., Mahboob A.S. Intelligent Control of Urban Intersection Traffic Light Based on Reinforcement Learning Algorithm. In: 2021 26th International Computer Conference, Computer Society of Iran (CSICC), 03–04 March 2021, Tehran, Iran. IEEE; 2021. P. 1–5. https://doi.org/10.1109/CSICC52343.2021.9420622</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Zhou M., Yu Y., Qu X. Development of an Efficient Driving Strategy for Connected and Automated Vehicles at Signalized Intersections: A Reinforcement Learning Approach. IEEE Transactions on Intelligent Transportation Systems. 2020;21(1):433–443. https://doi.org/10.1109/TITS.2019.2942014</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Ducrocq R., Farhi N. Deep Reinforcement Q-Learning for Intelligent Traffic Signal Control with Partial Detection. International Journal of Intelligent Transportation Systems Research. 2023;21(1):192–206. https://doi.org/10.1007/s13177-023-00346-4</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Farazi N.P., Ahamed T., Barua L., Zou B. Deep Reinforcement Learning and Transportation Research: A Comprehensive Review. arXiv. URL: https://doi.org/10.48550/arXiv.2010.06187 [Accessed 31st October 2025].</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Qadri S.Sh.S.M., Gökçe M.A., Öner E. State-of-art review of traffic signal control methods: challenges and opportunities. European Transport Research Review. 2020;12(1). https://doi.org/10.1186/s12544-020-00439-1</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Рутковский В.Н., Капский Д.В. Анализ, разработка и реализация адаптивных алгоритмов (гибкого) светофорного регулирования. Системный анализ и прикладная информатика. 2023;(3):4–16. https://doi.org/10.21122/2309-4923-2023-3-4-16</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Агафонов А.А., Ефименко Е.Ю. Сравнение алгоритмов управления сигналами светофоров в крупномасштабном сценарии моделирования движения транспортных средств. В сборнике: Информационные технологии и нанотехнологии (ИТНТ-2022): Сборник трудов по материалам VIII Международной конференции и молодежной школы: Том 3, 23–27 мая 2022 года, Самара, Россия. Самара: Самарский национальный исследовательский университет имени академика С.П. Королева; 2022. С. 031382.</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Агафонов А.А., Юмаганов А.С., Мясников В.В. Адаптивное управление дорожными сигналами на основе нейросетевого прогноза максимального взвешенного потока. Автометрия. 2022;58(5):85–97. https://doi.org/10.15372/AUT20220510</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Dake D.K., Gadze J.D., Klogo G.S., Nunoo-Mensah H. Traffic Engineering in Software-defined Networks using Reinforcement Learning: A Review. International Journal of Advanced Computer Science and Applications. 2021;12(5):330–345.</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Fadila J.N., Wahab N.H.A., Alshammari A., et al. Comprehensive review of smart urban traffic management in the context of the fourth industrial revolution. IEEE Access. 2024;12:196866–196886. https://doi.org/10.1109/access.2024.3509572</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Liang X., Du X., Wang G., Han Zh. A Deep Reinforcement Learning Network for Traffic Light Cycle Control. IEEE Transactions on Vehicular Technology. 2019;68(2):1243–1253. https://doi.org/10.1109/TVT.2018.2890726</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Kunjir M., Chawla S. Offline Reinforcement Learning for Road Traffic Control. arXiv. URL: https://doi.org/10.48550/arXiv.2201.02381 [Accessed 20th October 2025].</mixed-citation>
      </ref>
      <ref id="cit13">
        <label>13</label>
        <mixed-citation xml:lang="ru">Tan K.L., Sharma A., Sarkar S. Robust Deep Reinforcement Learning for Traffic Signal Control. Journal of Big Data Analytics in Transportation. 2020;2(3):263–274. https://doi.org/10.1007/s42421-020-00029-6</mixed-citation>
      </ref>
      <ref id="cit14">
        <label>14</label>
        <mixed-citation xml:lang="ru">Орлова Е.В. Обучение с подкреплением как технология искусственного интеллекта для решения социально-экономических задач: оценка производительности алгоритмов. п-Economy. 2023;16(5):38–50. https://doi.org/10.18721/JE.16503</mixed-citation>
      </ref>
      <ref id="cit15">
        <label>15</label>
        <mixed-citation xml:lang="ru">Saadi A., Abghour N., Chiba Z., Moussaid Kh., Ali S. A survey of reinforcement and deep reinforcement learning for coordination in intelligent traffic light control. Journal of Big Data. 2025;12(1). https://doi.org/10.1186/s40537-025-01104-x</mixed-citation>
      </ref>
      <ref id="cit16">
        <label>16</label>
        <mixed-citation xml:lang="ru">Корчагин А.П. Гибридная система обучения агентов с использованием A2C и эволюционных стратегий. Моделирование, оптимизация и информационные технологии. 2025;13(3). https://doi.org/10.26102/2310-6018/2025.50.3.029</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>