Ключевые слова: обучение с подкреплением, окружение четвероногого робота, интеллектуальный агент, пространство состояний, пространство действий, функция вознаграждения, локомоция
УДК 004.896
DOI: 10.26102/2310-6018/2026.56.5.003
В статье предложен подход к моделированию функции вознаграждения путем последовательного тестирования ее функциональных компонент. Некорректные функциональные компоненты могут привести к тому, что максимальное значение результирующей функции перестанет соответствовать желаемому целевому поведению робота. Для решения этой проблемы, а также предварительной оценки самой функции была предложена методика верификации, позволяющая проводить систематическую проверку как отдельных компонент функции вознаграждения, так и их весовых коэффициентов до начала длительного и ресурсоемкого обучения политики. Методика включает в себя формирование набора желательных и нежелательных сценариев поведения робота для последующей оценки изменения функции вознаграждения и ее функциональных компонент. Предложен двухуровневый метод тестирования: на первом уровне тестируются отдельные функциональные компоненты, отвечающие за соблюдение желаемых критериев движения робота, таких как сохранение целевой скорости, сохранение целевой устойчивости корпуса, сохранение целевой высоты корпуса и т. д. на предмет их монотонного убывания в нежелательных состояниях. На втором уровне тестируется результирующая функция взвешенной суммы этих компонент, чтобы убедиться, что дисбаланс весов не приводит к росту награды при потере устойчивости, падении или движению с нежелательной скоростью в нежелательном направлении. Особое внимание уделяется тесту на соответствие желательному состоянию – сценарию идеального прямолинейного движения, который позволяет выявить «некорректные» наборы коэффициентов, при которых штрафующие компоненты доминируют даже в идеальных условиях. Экспериментальная проверка проведена на модели робота Unitree Go1 в среде PyBullet. Результаты подтверждают, что предложенные тесты эффективно выявляют ошибки в реализации компонент и дисбаланс весов, что существенно повышает надежность процесса обучения и сокращает временные затраты на разработку.
1. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal policy optimization algorithms. arXiv. URL: https://arxiv.org/abs/1707.06347 [Accessed 5th February 2026].
2. Tobin J., Fong R., Ray A., et al. Domain randomization for transferring deep neural networks from simulation to the real world. In: 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 24–28 September 2017, Vancouver, BC, Canada. IEEE; 2017. P. 23–30. https://doi.org/10.1109/IROS.2017.8202133
3. Muratore F., Gienger M., Peters J. Assessing transferability from simulation to reality for reinforcement learning. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021;43(4):1172–1183. https://doi.org/10.1109/TPAMI.2019.2952353
4. Ma Y.J., Liang W., Wang H.-J., et al. DrEureka: Language Model Guided Sim-To-Real Transfer. In: Robotics: Science and Systems 2024, 15–19 July 2024, Delft, The Netherlands. 2024. https://doi.org/10.15607/RSS.2024.XX.094
5. Kim M.-S., Kim J.-S., Park J.-H. Automated Hyperparameter Tuning in Reinforcement Learning for Quadrupedal Robot Locomotion. Electronics. 2024;13(1). https://doi.org/10.3390/electronics13010116
6. Hwangbo J., Lee J., Dosovitskiy A., et al. Learning agile and dynamic motor skills for legged robots. Science Robotics. 2019;4(26). https://doi.org/10.1126/scirobotics.aau5872
7. Bellegarda G., Chen Y., Liu Zh., Nguyen Q. Robust High-speed Running for Quadruped Robots via Deep Reinforcement Learning. arXiv. URL: https://arxiv.org/abs/2103.06484 [Accessed 12th February 2026].
8. Zhao Y., Wu T., Zhu Y., et al. ZSL-RPPO: Zero-Shot Learning for Quadrupedal Locomotion in Challenging Terrains using Recurrent Proximal Policy Optimization. arXiv. URL: https://arxiv.org/abs/2403.01928 [Accessed 5th February 2026].
9. Van Marum B., Shrestha A., Duan H., et al. Revisiting Reward Design and Evaluation for Robust Humanoid Standing and Walking. arXiv. URL: https://arxiv.org/abs/2404.19173 [Accessed 10th February 2026].
10. Soni R., Harnack D., Isermann H., et al. End-to-End Reinforcement Learning for Torque Based Variable Height Hopping. In: 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 01–05 October 2023, Detroit, MI, USA. IEEE; 2023. P. 7531–7538. https://doi.org/10.1109/IROS55552.2023.10342187
Ключевые слова: обучение с подкреплением, окружение четвероногого робота, интеллектуальный агент, пространство состояний, пространство действий, функция вознаграждения, локомоция
Для цитирования: Героев А.С., Гергет О.М., Башкирова А.В., Фильченков А.А. Методика верификации функции вознаграждения для обучения политик локомоции четвероногого робота. Моделирование, оптимизация и информационные технологии. 2026;14(5). URL: https://moitvivt.ru/ru/journal/article?id=2272 DOI: 10.26102/2310-6018/2026.56.5.003
© Героев А.С., Гергет О.М., Башкирова А.В., Фильченков А.А. Статья опубликована на условиях лицензии Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NS 4.0)Поступила в редакцию 06.03.2026
Поступила после рецензирования 27.04.2026
Принята к публикации 11.05.2026