Гибридная система обучения агентов с использованием A2C и эволюционных стратегий
Работая с сайтом, я даю свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта обрабатывается системой Яндекс.Метрика
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Гибридная система обучения агентов с использованием A2C и эволюционных стратегий

Корчагин А.П. 

УДК 004.85
DOI: 10.26102/2310-6018/2025.50.3.029

  • Аннотация
  • Список литературы
  • Об авторах

Актуальность исследования обусловлена необходимостью повышения эффективности обучения агентов в условиях частичной наблюдаемости и ограниченного взаимодействия, характерных для многих реальных задач в мультиагентных системах. В связи с этим данная статья направлена на разработку и анализ гибридного подхода к обучению агентов, сочетающего преимущества градиентных и эволюционных методов. Ведущим методом исследования является модифицированный алгоритм Advantage Actor-Critic (A2C), дополненный элементами эволюционного обучения – кроссовером и мутацией параметров нейросети. Такой подход позволяет комплексно рассмотреть проблему адаптации агентов в условиях ограниченного обзора и кооперативного взаимодействия. В статье представлены результаты экспериментов в среде с двумя кооперативными агентами, задачей которых является извлечение и доставка ресурсов. Показано, что гибридная методика обучения обеспечивает значительный рост эффективности поведения агентов по сравнению с чисто градиентными подходами. Динамика среднего вознаграждения свидетельствует об устойчивости метода и его потенциале в более сложных сценариях многоагентного взаимодействия. Материалы статьи представляют практическую ценность для специалистов в области обучения с подкреплением, разработки мультиагентных систем и построения адаптивных кооперативных стратегий в условиях ограниченной информации.

1. Yadav A., Kumar A., Choudhary Ch. Integrated Swarm Intelligence Framework for Dynamic Traffic Optimization in Delhi: A Three-Layer PSO-Fuzzy-MAS Approach. International Scientific Journal of Engineering and Management. 2025;04(05). https://doi.org/10.55041/ISJEM03921

2. Icarte-Ahumada G., He Zh., Godoy V., García F., Oyarzún M. A Multi-Agent System for Parking Allocation: An Approach to Allocate Parking Spaces. Electronics. 2025;14(5). https://doi.org/10.3390/electronics14050840

3. Dey S., Munsi A., Pradhan S., Aditya K. Bidirectional Wireless System for Drone to Drone Opportunity Charging in a Multi Agent System. In: 2023 International Conference on Control, Communication and Computing (ICCC), 19–21 May 2023, Thiruvananthapuram, India. IEEE; 2023. P. 1–5. https://doi.org/10.1109/ICCC57789.2023.10164995

4. Souli N., Kolios P., Ellinas G. Multi-Agent System for Rogue Drone Interception. IEEE Robotics and Automation Letters. 2023;8(4):2221–2228. https://doi.org/10.1109/LRA.2023.3245412

5. Sanghi N. Deep Q-Learning (DQN). In: Deep Reinforcement Learning with Python: RLHF for Chatbots and Large Language Models. Berkeley: Apress; 2024. P. 225–271. https://doi.org/10.1007/979-8-8688-0273-7_6

6. Jeungthanasirigool W., Sirimaskasem Th., Boonraksa T., Boonraksa P. Comparison of PPO-DRL and A2C-DRL Algorithms for MPPT in Photovoltaic Systems via Buck-Boost Converter. International Journal of Innovative Research and Scientific Studies. 2025;8(3):2438–2453. https://doi.org/10.53894/ijirss.v8i3.7022

7. Вel Rio A., Jimenez D., Serrano J. Comparative Analysis of A3C and PPO Algorithms in Reinforcement Learning: A Survey on General Environments. IEEE Access. 2024;12:146795–146806. https://doi.org/10.1109/ACCESS.2024.3472473

8. Chen T.-Yo., Chen W.-N., Hao J.-K., Wang Ya., Zhang J. Multi-Agent Evolution Strategy with Cooperative and Cumulative Step Adaptation for Black-Box Distributed Optimization. IEEE Transactions on Evolutionary Computation. 2025. https://doi.org/10.1109/TEVC.2025.3525713

9. Hochreiter S., Schmidhuber J. Long Short-Term Memory. Neural Computation. 1997;9(8):1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735

10. Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization. In: Proceedings of the 3rd International Conference on Learning Representations (ICLR 2015), 07–09 May 2015, San Diego, CA, USA. 2015. URL: https://arxiv.org/abs/1412.6980

Корчагин Алексей Павлович

Воронежский государственный университет

Воронеж, Российская Федерация

Ключевые слова: обучение с подкреплением, эволюционные алгоритмы, многоагентная система, a2C, LSTM, кооперативное обучение

Для цитирования: Корчагин А.П. Гибридная система обучения агентов с использованием A2C и эволюционных стратегий. Моделирование, оптимизация и информационные технологии. 2025;13(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1991 DOI: 10.26102/2310-6018/2025.50.3.029

24

Полный текст статьи в PDF

Поступила в редакцию 15.06.2025

Поступила после рецензирования 18.07.2025

Принята к публикации 30.07.2025