Математическая модель универсальной системы управления шагающим роботом на основе методов обучения с подкреплением
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Математическая модель универсальной системы управления шагающим роботом на основе методов обучения с подкреплением

Кашко В.В.,  idОлейникова С.А.

УДК 519.857.3
DOI: 10.26102/2310-6018/2024.44.1.025

  • Аннотация
  • Список литературы
  • Об авторах

Современные подходы к решению задачи управления шагающими роботами с вращательными звеньями представляют собой разрозненные алгоритмы, строящиеся либо на готовой локомоторной программе с дальнейшей ее адаптацией, либо на сложных кинематико-динамических моделях, нуждающихся в обширных знаниях о динамике системы и окружающей среды, что в прикладных задачах зачастую является невыполнимым. Так же, используемые подходы жестко связаны с конфигурацией шагающего робота, что делает невозможным применение метода в приложениях с иной конфигурацией (другим количеством и типом конечностей). В данной статье предлагается универсальный подход к управлению движением шагающих роботов, основанный на методологии обучения с подкреплением. Рассматривается математическая модель системы управления, основанная на конечных дискретных марковских процессах в контексте методов обучения с подкреплением. Ставится задача построения универсальной и адаптивной системы управления, способной осуществить поиск оптимальной стратегии для реализации локомоторной программы в заранее неизвестной среде, путем непрерывного взаимодействия. К результатам, отличающимся научной новизной, следует отнести математическую модель данной системы, позволяющей описать процесс ее функционирования с помощью марковских цепей. Отличием от существующих аналогов является унификация описания робота.

1. Paulo J., Asdadi A., Peixoto P., Amorim P. Human gait pattern changes detection system: A multimodal vision-based and novelty detection learning approach. Biocybernetics and Biomedical Engineering. 2017;37(4):701–717.

2. Shimmyo S., Sato T., Ohnishi K. Biped walking pattern generation by using preview control based on three-mass model. IEEE transactions on industrial electronics. 2012;60(11):5137–5147. DOI: 10.1109/TIE.2012.2221111.

3. Smith L., Kew J., Li T., Luu L., Peng X., Ha S., Tan J., Levine S. Learning and Adapting Agile Locomotion Skills by Transferring Experience. Robotics: Science and Systems XIX. 2023. DOI: 10.15607/RSS.2023.XIX.051 (accessed on 11.02.2024).

4. Braun D. J., Mitchell J. E., Goldfarb M. Actuated dynamic walking in a seven-link biped robot. IEEE/ASME Transactions on Mechatronics. 2010;17(1):147–156. DOI: 10.1109/TMECH.2010.2090891.

5. Bebek O., Erbatur K. A gait adaptation scheme for biped walking robots. The 8th IEEE International Workshop on Advanced Motion Control. 2004;409–414. DOI: 10.1109/AMC.2004.1297904.

6. Arakawa T., Fukuda T. Natural motion trajectory generation of biped locomotion robot using genetic algorithm through energy optimization. 1996 IEEE International Conference on Systems, Man and Cybernetics. Information Intelligence and Systems (Cat. No.96CH35929). 1996;2:1495–1500. DOI: 10.1109/ICSMC.1996.571368.

7. Luu T.P., Lim H.B., Hoon K.H., Qu X., Low K. H. Subject-specific gait parameters prediction for robotic gait rehabilitation via generalized regression neural network. 2011 IEEE International Conference on Robotics and Biomimetics. 2011;914–919. DOI: 10.1109/ROBIO.2011.6181404.

8. Ouyang W., Chi H., Pang J., Liang W., Ren Q. Adaptive Locomotion Control of a Hexapod Robot via Bio-Inspired Learning. Front Neurorobot. 2021;15:627157. DOI: 10.3389/fnbot.2021.627157.

9. Hrdlicka I., Kutilek P. Reinforcement learning in control systems for walking hexapod robots. Cybernetic Letters. 2005;3:1–13.

10. Fu H., Tang K., Li P., Zhang W., Wang X., Deng G., Wang T., Chen C. Deep Reinforcement Learning for Multi-contact Motion Planning of Hexapod Robots. Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. 2021:2381–2388. DOI: 10.24963/ijcai.2021/328.

11. Geng T., Porr B., Wörgötter F. Fast biped walking with a sensor-driven neuronal controller and real-time online learning. The International Journal of Robotics Research. 2006;25(3):243–259.

12. Schilling M., Konen K., Ohl F.W., Korthals T. Decentralized Deep Reinforcement Learning for a Distributed and Adaptive Locomotion Controller of a Hexapod Robot. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Las Vegas, NV, USA; 2020. p. 5335–5342. DOI: 10.1109/IROS45743.2020.9341754.

13. Tien Y., Yang C., Hooman S. Reinforcement learning and convolutional neural network system for firefighting rescue robot. MATEC Web of Conferences. 2018;161. DOI:

14. 10.1051/matecconf/201816103028.

15. Саттон Р. С., Барто Э. Дж. Обучение с подкреплением: Введение. 2-е изд.: Пер. с англ. М.: ДМК Пресс; 2020. 552 с.

Кашко Василий Васильевич

Воронежский государственный технический университет

Воронеж, Россия

Олейникова Светлана Александровна
доктор технических наук, профессор

WoS | ORCID | РИНЦ |

Воронежский государственный технический университет

Воронеж, Россия

Ключевые слова: система управления, обучение с подкреплением, марковские процессы принятия решений, нейронные сети, шагающий робот, искусственный интеллект

Для цитирования: Кашко В.В., Олейникова С.А. Математическая модель универсальной системы управления шагающим роботом на основе методов обучения с подкреплением. Моделирование, оптимизация и информационные технологии. 2024;12(1). URL: https://moitvivt.ru/ru/journal/pdf?id=1520 DOI: 10.26102/2310-6018/2024.44.1.025

180

Полный текст статьи в PDF

Поступила в редакцию 15.02.2024

Поступила после рецензирования 18.03.2024

Принята к публикации 21.03.2024

Опубликована 31.03.2024