Ключевые слова: мультиагентное обучение, обучение с подкреплением, стохастические игры, стратегии равновесия
Алгоритмизация мультиагентного обучения с подкреплением в теоретико-игровых задачах поиска оптимальных стратегий
УДК 004.8, 519.83
DOI: 10.26102/2310-6018/2020.28.1.04
Актуальность темы статьи обусловлена растущим интересом к мультиагентному имитационному моделированию динамических систем различной физической и социальной природы. В настоящее время на первый план выходит концепция интеллектуального агента как имитационной модели поведения активного элемента в сложных ситуациях и стратегиях взаимодействия с другими активными элементами и средой для достижения цели. В общей концепции интеллектуального агента и агентных технологий имитации взаимодействия динамических объектов в направлении достижения цели предлагается метод структурнопараметрического моделирования интеллектуальных агентов и мультиагентных систем с алгоритмами идентификации и прогнозирования состояния агентов, а также программная реализация мультиагентных имитационных моделей производственных, социальных и маркетинговых систем. В этой связи актуальность темы обусловливается необходимостью повышения эффективности мультиагентного обучения с подкреплением в теоретико-игровых задачах поиска оптимальных стратегий. В статье описываются алгоритмы мультиагентного обучения с подкреплением в теоретико-игровых задачах, такие как minimax-Q, когда реализуется минимизации возможных потерь из тех, которые агенту нельзя предотвратить при развитии событий по наихудшему для него сценарию и WoLF-PHC (Win or Learn Fast – Policy Hill Climbing), реализующему политику быстрого выигрыша или быстрого обучения. Показаны достоинства и недостатки данных подходов, принципы их модернизации и возможности реализации указанных подходов в средах имитационного моделирования.
1. Littman M.L. Markov games as a framework for multi-agent reinforcement learning, in 11th International Conference on Machine Learning (New Brunswick, United States), July 1994:157-163.
2. Bowling M. and Veloso M. Multiagent learning using a variable learning rate. Artificial Intelligence. 2002;136(2):215-250.
3. Isaacs. Differential Games: A Mathematical Theory with Applications to Warfare and Pursuit, Control and Optimization. New York, New York: John Wiley and Sons, Inc. 1965.
4. Sutton R.S. and Barto A.G. Reinforcement learning: An Introduction. Cambridge, Massachusetts: The MIT Press, 1998.
5. Bowling M. Multiagent Learning in the Presence of Agents with Limitations. PhD thesis, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, May 2003.
6. Соколова Е.С. Мультиагентный подход к моделированию межмодульных взаимодействий в стохастических сетевых распределённых системах. Системы управления и информационные технологии. 2020;1(79):67-71.
7. Ивашкин Ю.А. Мультиагентное моделирование в имитационной системе Simplex3. Учебное пособие. М.: Лаборатория знаний: Лаборатория Базовых Знаний. 2016:361.
8. Lu X. On Multi-Agent Reinforcement Learning in Games. Ph.D. Thesis Carleton University, Ottawa, ON, Canada. 2012.
9. Littman M.L., Szepesvári C. A generalized reinforcement learning model: Convergence and applications. Proceedings of the 13th International Conference on Machine Learning, (Bari, Italy). July 1996:310-318.
10. Hu J., Wellman M.P. Multiagent reinforcement learning: theoretical framework and an algorithm. Proceedings of the Fifteenth International Conference on Machine Learning (ICML 1998), Madison, Wisconsin, USA, July 24-27. 1998:242-250.
11. . Hu J., M. P. Wellman M.P. Nash q-learning for general-sum stochastic games. Journal of Machine Learning Research. 2003;4:1039-1069.
12. Schwartz H.M. Multi-agent machine learning: a reinforcement approach. By John Wiley & Sons, Inc. 2014:315.
Ключевые слова: мультиагентное обучение, обучение с подкреплением, стохастические игры, стратегии равновесия
Для цитирования: Соколова Е.С., Разинкин К.А. Алгоритмизация мультиагентного обучения с подкреплением в теоретико-игровых задачах поиска оптимальных стратегий. Моделирование, оптимизация и информационные технологии. 2020;8(1). URL: https://moit.vivt.ru/wp-content/uploads/2020/02/SokolovaSoavtori_1_20_1.pdf DOI: 10.26102/2310-6018/2020.28.1.04
Опубликована 31.03.2020