Методика верификации функции вознаграждения для обучения политик локомоции четвероногого робота

idГероев А.С., idГергет О.М., Башкирова А.В., Фильченков А.А.

УДК 004.896
DOI: 10.26102/2310-6018/2026.56.5.003

Аннотация
Список литературы
Об авторах

В статье предложен подход к моделированию функции вознаграждения путем последовательного тестирования ее функциональных компонент. Некорректные функциональные компоненты могут привести к тому, что максимальное значение результирующей функции перестанет соответствовать желаемому целевому поведению робота. Для решения этой проблемы, а также предварительной оценки самой функции была предложена методика верификации, позволяющая проводить систематическую проверку как отдельных компонент функции вознаграждения, так и их весовых коэффициентов до начала длительного и ресурсоемкого обучения политики. Методика включает в себя формирование набора желательных и нежелательных сценариев поведения робота для последующей оценки изменения функции вознаграждения и ее функциональных компонент. Предложен двухуровневый метод тестирования: на первом уровне тестируются отдельные функциональные компоненты, отвечающие за соблюдение желаемых критериев движения робота, таких как сохранение целевой скорости, сохранение целевой устойчивости корпуса, сохранение целевой высоты корпуса и т. д. на предмет их монотонного убывания в нежелательных состояниях. На втором уровне тестируется результирующая функция взвешенной суммы этих компонент, чтобы убедиться, что дисбаланс весов не приводит к росту награды при потере устойчивости, падении или движению с нежелательной скоростью в нежелательном направлении. Особое внимание уделяется тесту на соответствие желательному состоянию – сценарию идеального прямолинейного движения, который позволяет выявить «некорректные» наборы коэффициентов, при которых штрафующие компоненты доминируют даже в идеальных условиях. Экспериментальная проверка проведена на модели робота Unitree Go1 в среде PyBullet. Результаты подтверждают, что предложенные тесты эффективно выявляют ошибки в реализации компонент и дисбаланс весов, что существенно повышает надежность процесса обучения и сокращает временные затраты на разработку.

1. Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. Proximal policy optimization algorithms. arXiv. URL: https://arxiv.org/abs/1707.06347 [Accessed 5th February 2026].

2. Tobin J., Fong R., Ray A., et al. Domain randomization for transferring deep neural networks from simulation to the real world. In: 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 24–28 September 2017, Vancouver, BC, Canada. IEEE; 2017. P. 23–30. https://doi.org/10.1109/IROS.2017.8202133

3. Muratore F., Gienger M., Peters J. Assessing transferability from simulation to reality for reinforcement learning. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2021;43(4):1172–1183. https://doi.org/10.1109/TPAMI.2019.2952353

4. Ma Y.J., Liang W., Wang H.-J., et al. DrEureka: Language Model Guided Sim-To-Real Transfer. In: Robotics: Science and Systems 2024, 15–19 July 2024, Delft, The Netherlands. 2024. https://doi.org/10.15607/RSS.2024.XX.094

5. Kim M.-S., Kim J.-S., Park J.-H. Automated Hyperparameter Tuning in Reinforcement Learning for Quadrupedal Robot Locomotion. Electronics. 2024;13(1). https://doi.org/10.3390/electronics13010116

6. Hwangbo J., Lee J., Dosovitskiy A., et al. Learning agile and dynamic motor skills for legged robots. Science Robotics. 2019;4(26). https://doi.org/10.1126/scirobotics.aau5872

7. Bellegarda G., Chen Y., Liu Zh., Nguyen Q. Robust High-speed Running for Quadruped Robots via Deep Reinforcement Learning. arXiv. URL: https://arxiv.org/abs/2103.06484 [Accessed 12th February 2026].

8. Zhao Y., Wu T., Zhu Y., et al. ZSL-RPPO: Zero-Shot Learning for Quadrupedal Locomotion in Challenging Terrains using Recurrent Proximal Policy Optimization. arXiv. URL: https://arxiv.org/abs/2403.01928 [Accessed 5th February 2026].

9. Van Marum B., Shrestha A., Duan H., et al. Revisiting Reward Design and Evaluation for Robust Humanoid Standing and Walking. arXiv. URL: https://arxiv.org/abs/2404.19173 [Accessed 10th February 2026].

10. Soni R., Harnack D., Isermann H., et al. End-to-End Reinforcement Learning for Torque Based Variable Height Hopping. In: 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 01–05 October 2023, Detroit, MI, USA. IEEE; 2023. P. 7531–7538. https://doi.org/10.1109/IROS55552.2023.10342187

Героев Александр Сергеевич

Scopus | ORCID | РИНЦ |

Институт проблем управления имени В.А. Трапезникова РАН
ООО "ПРИКЛАДНАЯ РОБОТОТЕХНИКА"

Москва, Российская Федерация

Гергет Ольга Михайловна
Доктор технических наук, доцент

WoS | Scopus | ORCID | РИНЦ |

Институт проблем управления имени В.А. Трапезникова РАН

Москва, Российская Федерация

Башкирова Анастасия Вячеславовна

Институт проблем управления имени В.А. Трапезникова РАН

Москва, Российская Федерация

Фильченков Александр Александрович

Московский политехнический университет
ООО "ПРИКЛАДНАЯ РОБОТОТЕХНИКА"

Москва, Российская Федерация

Ключевые слова: обучение с подкреплением, окружение четвероногого робота, интеллектуальный агент, пространство состояний, пространство действий, функция вознаграждения, локомоция

Для цитирования: Героев А.С., Гергет О.М., Башкирова А.В., Фильченков А.А. Методика верификации функции вознаграждения для обучения политик локомоции четвероногого робота. Моделирование, оптимизация и информационные технологии. 2026;14(5). URL: https://moitvivt.ru/ru/journal/article?id=2272 DOI: 10.26102/2310-6018/2026.56.5.003

160

Полный текст статьи в PDF

Скачать JATS XML

Поступила в редакцию 06.03.2026

Поступила после рецензирования 27.04.2026

Принята к публикации 11.05.2026

Опубликована 31.05.2026