<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2020.28.1.04</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">732</article-id>
      <title-group>
        <article-title xml:lang="ru">Алгоритмизация мультиагентного обучения с подкреплением в теоретико-игровых задачах поиска оптимальных стратегий</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Algorithmization of multi-agent learning with reinforcement in the game-theoretic problems of finding optimal strategies</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Соколова</surname>
              <given-names>Елена Сергеевна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Sokolova</surname>
              <given-names>Elena Sergeevna</given-names>
            </name>
          </name-alternatives>
          <email>lenoks.sokolova@mail.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Разинкин</surname>
              <given-names>Константин Александрович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Razinkin</surname>
              <given-names>Konstantin Aleksandrovich</given-names>
            </name>
          </name-alternatives>
          <email>kostyr@mail.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">ФГБОУ ВО «Воронежский государственный технический университет»</aff>
        <aff xml:lang="en">Voronezh state technical University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">ФГБОУ ВО «Воронежский государственный технический университет»</aff>
        <aff xml:lang="en">Voronezh State Technical University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2020.28.1.04</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=732"/>
      <abstract xml:lang="ru">
        <p>Актуальность темы статьи обусловлена растущим интересом к мультиагентному&#13;
имитационному моделированию динамических систем различной физической и социальной&#13;
природы. В настоящее время на первый план выходит концепция интеллектуального агента как&#13;
имитационной модели поведения активного элемента в сложных ситуациях и стратегиях&#13;
взаимодействия с другими активными элементами и средой для достижения цели. В общей&#13;
концепции интеллектуального агента и агентных технологий имитации взаимодействия&#13;
динамических объектов в направлении достижения цели предлагается метод структурнопараметрического моделирования интеллектуальных агентов и мультиагентных систем с&#13;
алгоритмами идентификации и прогнозирования состояния агентов, а также программная&#13;
реализация мультиагентных имитационных моделей производственных, социальных и&#13;
маркетинговых систем. В этой связи актуальность темы обусловливается необходимостью&#13;
повышения эффективности мультиагентного обучения с подкреплением в теоретико-игровых&#13;
задачах поиска оптимальных стратегий. В статье описываются алгоритмы мультиагентного&#13;
обучения с подкреплением в теоретико-игровых задачах, такие как minimax-Q, когда реализуется&#13;
минимизации возможных потерь из тех, которые агенту нельзя предотвратить при развитии&#13;
событий по наихудшему для него сценарию и WoLF-PHC (Win or Learn Fast – Policy Hill&#13;
Climbing), реализующему политику быстрого выигрыша или быстрого обучения. Показаны&#13;
достоинства и недостатки данных подходов, принципы их модернизации и возможности&#13;
реализации указанных подходов в средах имитационного моделирования.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>The relevance of the topic of the article is due to the growing interest in multi-agent simulation&#13;
of dynamic systems of various physical and social nature. Currently, the concept of an intelligent agent&#13;
as a simulation model of the behavior of the active element in complex situations and strategies for&#13;
interaction with other active elements and the environment to achieve the goal is coming to the fore. In&#13;
the general concept of an intelligent agent and agent technologies for simulating the interaction of&#13;
dynamic objects in the direction of achieving a goal, a method of structural-parametric modeling of&#13;
intelligent agents and multi-agent systems with algorithms for identifying and predicting the state of&#13;
agents, as well as software for multi-agent simulation models of production, social and marketing systems. In this regard, the relevance of the topic is determined by the need to increase the effectiveness&#13;
of multi-agent training with reinforcement in the game-theoretic problems of finding optimal strategies.&#13;
The article describes multi-agent learning algorithms with reinforcement in game-theoretic problems,&#13;
such as minimax-Q, when minimizing possible losses from those that cannot be prevented by an agent&#13;
when events develop according to his worst-case scenario and WoLF-PHC (Win or Learn Fast – Policy&#13;
Hill Climbing), which implements a policy of quick gain or quick training. In this case, the WoLF-PHC&#13;
algorithm, which is a modification of the PHC algorithm. The algorithm has different learning speeds&#13;
when winning an agent and a pro-game. Agent training rates vary to maintain algorithm convergence.&#13;
The main idea of this algorithm is to learn quickly, losing, and slowly, winning. The advantages and&#13;
disadvantages of these approaches, the principles of their modernization and the possibility of&#13;
implementing these approaches in simulation environments are shown.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>мультиагентное обучение</kwd>
        <kwd>обучение с подкреплением</kwd>
        <kwd>стохастические игры</kwd>
        <kwd>стратегии равновесия</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>multi-agent learning</kwd>
        <kwd>reinforcement learning</kwd>
        <kwd>stochastic games</kwd>
        <kwd>equilibrium strategies</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Littman M.L. Markov games as a framework for multi-agent reinforcement learning, in 11th&#13;
International Conference on Machine Learning (New Brunswick, United States), July&#13;
1994:157-163.&#13;
</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Bowling M. and Veloso M. Multiagent learning using a variable learning rate. Artificial&#13;
Intelligence. 2002;136(2):215-250.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Isaacs. Differential Games: A Mathematical Theory with Applications to Warfare and&#13;
Pursuit, Control and Optimization. New York, New York: John Wiley and Sons, Inc. 1965.</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Sutton R.S. and Barto A.G. Reinforcement learning: An Introduction. Cambridge,&#13;
Massachusetts: The MIT Press, 1998.&#13;
</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Bowling M. Multiagent Learning in the Presence of Agents with Limitations. PhD thesis,&#13;
School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, May 2003.</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Соколова Е.С. Мультиагентный подход к моделированию межмодульных&#13;
взаимодействий в стохастических сетевых распределённых системах. Системы&#13;
управления и информационные технологии. 2020;1(79):67-71.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Ивашкин Ю.А. Мультиагентное моделирование в имитационной системе Simplex3.&#13;
Учебное пособие. М.: Лаборатория знаний: Лаборатория Базовых Знаний. 2016:361.</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Lu X. On Multi-Agent Reinforcement Learning in Games. Ph.D. Thesis Carleton&#13;
University, Ottawa, ON, Canada. 2012.</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Littman M.L., Szepesvári C. A generalized reinforcement learning model: Convergence and&#13;
applications. Proceedings of the 13th International Conference on Machine Learning,&#13;
(Bari, Italy). July 1996:310-318.&#13;
</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Hu J., Wellman M.P. Multiagent reinforcement learning: theoretical framework and an&#13;
algorithm. Proceedings of the Fifteenth International Conference on Machine Learning&#13;
(ICML 1998), Madison, Wisconsin, USA, July 24-27. 1998:242-250.</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">. Hu J., M. P. Wellman M.P. Nash q-learning for general-sum stochastic games. Journal of&#13;
Machine Learning Research. 2003;4:1039-1069.&#13;
</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Schwartz H.M. Multi-agent machine learning: a reinforcement approach. By John Wiley &amp;&#13;
Sons, Inc. 2014:315. </mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>