<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2026.56.5.003</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">2272</article-id>
      <title-group>
        <article-title xml:lang="ru">Методика верификации функции вознаграждения для обучения политик локомоции четвероногого робота</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Reward function verification methodology for training locomotion policies of a quadruped robot</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <contrib-id contrib-id-type="orcid">0009-0000-1280-4709</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Героев</surname>
              <given-names>Александр Сергеевич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Geroyev</surname>
              <given-names>Alexander Sergeevich</given-names>
            </name>
          </name-alternatives>
          <email>geroev_sasha@mail.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0000-0002-6242-9502</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Гергет</surname>
              <given-names>Ольга Михайловна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Gerget</surname>
              <given-names>Olga Mikhailovna</given-names>
            </name>
          </name-alternatives>
          <email>olgagerget@mail.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
        <contrib contrib-type="author">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Башкирова</surname>
              <given-names>Анастасия Вячеславовна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Bashkirova</surname>
              <given-names>Anastasiia Viacheslavovna</given-names>
            </name>
          </name-alternatives>
          <email>basana235@yandex.ru</email>
          <xref ref-type="aff">aff-3</xref>
        </contrib>
        <contrib contrib-type="author">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Фильченков</surname>
              <given-names>Александр Александрович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Filchenkov</surname>
              <given-names>Alexander Alexandrovich</given-names>
            </name>
          </name-alternatives>
          <email>al.filchenkov@gmail.com</email>
          <xref ref-type="aff">aff-4</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Институт проблем управления имени В.А. Трапезникова РАН ООО "ПРИКЛАДНАЯ РОБОТОТЕХНИКА"</aff>
        <aff xml:lang="en">V.A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences Applied Robotics LLC</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Институт проблем управления имени В.А. Трапезникова РАН</aff>
        <aff xml:lang="en">V.A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-3">
        <aff xml:lang="ru">Институт проблем управления имени В.А. Трапезникова РАН</aff>
        <aff xml:lang="en">V.A. Trapeznikov Institute of Control Sciences of Russian Academy of Sciences</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-4">
        <aff xml:lang="ru">Московский политехнический университет ООО "ПРИКЛАДНАЯ РОБОТОТЕХНИКА"</aff>
        <aff xml:lang="en">Moscow Polytechnic University Applied Robotics LLC</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2026.56.5.003</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=2272"/>
      <abstract xml:lang="ru">
        <p>В статье предложен подход к моделированию функции вознаграждения путем последовательного тестирования ее функциональных компонент. Некорректные функциональные компоненты могут привести к тому, что максимальное значение результирующей функции перестанет соответствовать желаемому целевому поведению робота. Для решения этой проблемы, а также предварительной оценки самой функции была предложена методика верификации, позволяющая проводить систематическую проверку как отдельных компонент функции вознаграждения, так и их весовых коэффициентов до начала длительного и ресурсоемкого обучения политики. Методика включает в себя формирование набора желательных и нежелательных сценариев поведения робота для последующей оценки изменения функции вознаграждения и ее функциональных компонент. Предложен двухуровневый метод тестирования: на первом уровне тестируются отдельные функциональные компоненты, отвечающие за соблюдение желаемых критериев движения робота, таких как сохранение целевой скорости, сохранение целевой устойчивости корпуса, сохранение целевой высоты корпуса и т. д. на предмет их монотонного убывания в нежелательных состояниях. На втором уровне тестируется результирующая функция взвешенной суммы этих компонент, чтобы убедиться, что дисбаланс весов не приводит к росту награды при потере устойчивости, падении или движению с нежелательной скоростью в нежелательном направлении. Особое внимание уделяется тесту на соответствие желательному состоянию – сценарию идеального прямолинейного движения, который позволяет выявить «некорректные» наборы коэффициентов, при которых штрафующие компоненты доминируют даже в идеальных условиях. Экспериментальная проверка проведена на модели робота Unitree Go1 в среде PyBullet. Результаты подтверждают, что предложенные тесты эффективно выявляют ошибки в реализации компонент и дисбаланс весов, что существенно повышает надежность процесса обучения и сокращает временные затраты на разработку.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>This article proposes an approach to reward function modeling through sequential testing of its functional components. Incorrect functional components can lead to the maximum value of the resulting function no longer corresponding to the desired robot behavior. To address this issue and to preliminarily evaluate the function itself, a verification method was proposed that allows for the systematic verification of both individual reward function components and their weighting coefficients before beginning time-consuming and resource-intensive policy training. The method involves generating a set of desirable and undesirable robot behavior scenarios for subsequent evaluation of the reward function and its functional components. A two-level testing method is proposed: at the first level, individual functional components responsible for maintaining desired robot motion criteria, such as maintaining target speed, maintaining target body stability, maintaining target body height, etc., are tested for monotonic decrease in undesirable states. At the second level, the resulting function of the weighted sum of these components is tested to ensure that weight imbalances do not lead to increased reward during instability, falls, or movement at an undesirable speed in an undesirable direction. Particular attention is paid to testing for compliance with the desired state – a scenario of ideal linear motion—which helps identify "incorrect" sets of coefficients where penalizing components dominate even under ideal conditions. Experimental validation was conducted on a Unitree Go1 robot model in the PyBullet environment. The results confirm that the proposed tests effectively identify component implementation errors and weight imbalances, significantly increasing the reliability of the training process and reducing development time.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>обучение с подкреплением</kwd>
        <kwd>окружение четвероногого робота</kwd>
        <kwd>интеллектуальный агент</kwd>
        <kwd>пространство состояний</kwd>
        <kwd>пространство действий</kwd>
        <kwd>функция вознаграждения</kwd>
        <kwd>локомоция</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>reinforcement learning</kwd>
        <kwd>environment of a quadruped robot</kwd>
        <kwd>intelligent agent</kwd>
        <kwd>state space</kwd>
        <kwd>action space</kwd>
        <kwd>reward function</kwd>
        <kwd>locomotion</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal policy optimization algorithms. arXiv. URL: https://arxiv.org/abs/1707.06347 [Accessed 5th February 2026].</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Tobin J., Fong R., Ray A., et al. Domain randomization for transferring deep neural networks from simulation to the real world. In: 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 24–28 September 2017, Vancouver, BC, Canada. IEEE; 2017. P. 23–30. https://doi.org/10.1109/IROS.2017.8202133</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Muratore F., Gienger M., Peters J. Assessing transferability from simulation to reality for reinforcement learning. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021;43(4):1172–1183. https://doi.org/10.1109/TPAMI.2019.2952353</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Ma Y.J., Liang W., Wang H.-J., et al. DrEureka: Language Model Guided Sim-To-Real Transfer. In: Robotics: Science and Systems 2024, 15–19 July 2024, Delft, The Netherlands. 2024. https://doi.org/10.15607/RSS.2024.XX.094</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Kim M.-S., Kim J.-S., Park J.-H. Automated Hyperparameter Tuning in Reinforcement Learning for Quadrupedal Robot Locomotion. Electronics. 2024;13(1). https://doi.org/10.3390/electronics13010116</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Hwangbo J., Lee J., Dosovitskiy A., et al. Learning agile and dynamic motor skills for legged robots. Science Robotics. 2019;4(26). https://doi.org/10.1126/scirobotics.aau5872</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Bellegarda G., Chen Y., Liu Zh., Nguyen Q. Robust High-speed Running for Quadruped Robots via Deep Reinforcement Learning. arXiv. URL: https://arxiv.org/abs/2103.06484  [Accessed 12th February 2026].</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Zhao Y., Wu T., Zhu Y., et al. ZSL-RPPO: Zero-Shot Learning for Quadrupedal Locomotion in Challenging Terrains using Recurrent Proximal Policy Optimization. arXiv. URL: https://arxiv.org/abs/2403.01928 [Accessed 5th February 2026].</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Van Marum B., Shrestha A., Duan H., et al. Revisiting Reward Design and Evaluation for Robust Humanoid Standing and Walking. arXiv. URL: https://arxiv.org/abs/2404.19173 [Accessed 10th February 2026].</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Soni R., Harnack D., Isermann H., et al. End-to-End Reinforcement Learning for Torque Based Variable Height Hopping. In: 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 01–05 October 2023, Detroit, MI, USA. IEEE; 2023. P. 7531–7538. https://doi.org/10.1109/IROS55552.2023.10342187</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>