Ансамблевые методы машинного обучения для прогностической диагностики сердечно-сосудистых заболеваний: сравнительный анализ на многоцентровой выборке

idЛавьер К.М., idВеселов Д.И., idАндриянов Н.А.

УДК 004.852:616.12
DOI: 10.26102/2310-6018/2026.57.6.017

Аннотация
Список литературы
Об авторах

В работе проведено сравнение восьми алгоритмов машинного обучения для диагностики сердечно-сосудистых заболеваний на объединенной многоцентровой выборке из шести баз данных (n = 1 904). Предложены три клинически обоснованных производных признака: maxhrratio (отношение максимальной частоты сердечных сокращений к возрастному прогнозу), sthr index (отношение депрессии сегмента ST к максимальной частоте сердечных сокращений) и anginast flag (бинарный индикатор совместного присутствия типичной стенокардии и нисходящего уклона сегмента ST). Базовые алгоритмы – дерево решений, логистическая регрессия, случайный лес, XGBoost, CatBoost, LightGBM – обучались с байесовской оптимизацией гиперпараметров. Ансамблирование выполнено методами стекинга (предсказания на отложенных блоках, мета-ученик с калибровкой по методу Платта) и взвешенного мягкого голосования. Качество оценивалось по методу бутстрепа со смещением-коррекцией (10 000 итераций, 95 % доверительный интервал); попарное сравнение – тесты ДеЛонга и МакНемара с поправкой Бонферрони (28 пар, порог p < 0,00179). Лучший результат среди одиночных моделей показал CatBoost: площадь под кривой рабочих характеристик 0,948 [0,922-0,966], гармоническое среднее точности и полноты 0,884, оценка Brier 0,097. Стекинг достиг площади под кривой рабочих характеристик 0,931 при наилучшей среди ансамблей калибровке (Brier 0,102). Аблационное исследование показало, что семь признаков обеспечивают 97,5 % качества полной модели. Консенсусное ранжирование на основе значений Шепли по четырем моделям поставило производный признак sthr index на четвертое место из четырнадцати, опередив семь исходных клинических переменных. Валидация методом исключения одного источника выявила несовместимость кодировок в двух из шести источников, подчеркивая необходимость аудита данных перед межучрежденческим развертыванием.

1. Гусев А.В. Перспективы нейронных сетей и глубокого машинного обучения в создании решений для здравоохранения. Врач и информационные технологии. 2017;(3):92–105.

2. Гусев А.В., Новицкий Р.Э., Ившин А.А., Алексеев А.А. Машинное обучение на лабораторных данных для прогнозирования заболеваний. ФАРМАКОЭКОНОМИКА. Современная фармакоэкономика и фармакоэпидемиология. 2021;14(4):581–592. https://doi.org/10.17749/2070-4909/farmakoekonomika.2021.115

3. Киселёв А.А. Разработка модели машинного обучения для прогнозирования сердечно-сосудистых заболеваний. Символ науки. 2023;(1-1):9–12.

4. Мамедов М.Н., Савчук Е.А., Каримов А.К. Искусственный интеллект в кардиологии. Международный журнал сердца и сосудистых заболеваний. 2024;12(43):5–11.

5. Беленков Ю.Н., Кожевникова М.В., Хабарова Н.В., Ильгисонис И.С., Коробкова Е.О. Роль искусственного интеллекта в кардиологии. Кардиология. 2025;65(2):3–16. https://doi.org/10.18087/cardio.2025.2.n2879

6. Гельцер Б.И., Циванюк М.М., Шахгельдян К.И., Рублев В.Ю. Методы машинного обучения как инструмент диагностических и прогностических исследований при ишемической болезни сердца. Российский кардиологический журнал. 2020;25(12). https://doi.org/10.15829/1560-4071-2020-3999

7. Гельцер Б.И., Рублев В.Ю., Циванюк М.М., Шахгельдян К.И. Машинное обучение в прогнозировании ближайших и отдалённых результатов реваскуляризации миокарда: систематический обзор. Российский кардиологический журнал. 2021;26(8). https://doi.org/10.15829/1560-4071-2021-4505

8. Каледина Е.А., Каледин О.Е., Кулягина Т.И. Применение методов машинного обучения для предсказания сердечно-сосудистых заболеваний на малых наборах данных. Проблемы информатики. 2022;(1):66–76. https://doi.org/10.24412/2073-0667-2022-1-66-76

9. Prokhorenkova L., Gusev G., Vorobev A., Dorogush A.V., Gulin A. CatBoost: unbiased boosting with categorical features. In: Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018 (NeurIPS 2018), 03–08 December 2018, Montréal, Canada. 2018. P. 6639–6649.

10. Dorogush A.V., Ershov V., Gulin A. CatBoost: gradient boosting with categorical features support. arXiv. URL: https://arxiv.org/abs/1810.11363 [Accessed 20th April 2026].

11. Chen T., Guestrin C. XGBoost: A scalable tree boosting system. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 13–17 August 2016, San Francisco, CA, USA. New York: ACM; 2016. P. 785–794. https://doi.org/10.1145/2939672.2939785

12. Ke G., Meng Q., Finley Th., et al. LightGBM: A highly efficient gradient boosting decision tree. In: Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 04–09 December 2017, Long Beach, CA, USA. 2017. P. 3146–3154.

13. Wolpert D.H. Stacked generalization. Neural Networks. 1992;5(2):241–259. https://doi.org/10.1016/S0893-6080(05)80023-1

14. Platt J.C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. In: Advances in Large Margin Classifiers. Cambridge: MIT Press; 1999. P. 61–74.

15. DiCiccio Th.J., Efron B. Bootstrap confidence intervals. Statistical Science. 1996;11(3):189–228.

16. DeLong E.R., DeLong D.M., Clarke-Pearson D.L. Comparing the areas under two or more correlated receiver operating characteristic curves: A nonparametric approach. Biometrics. 1988;44(3):837–845.

17. Pencina M.J., D'Agostino R.B., D'Agostino R.B., Vasan R.S. Evaluating the added predictive ability of a new marker: From area under the ROC curve to reclassification and beyond. Statistics in Medicine. 2008;27(2):157–172. https://doi.org/10.1002/sim.2929

18. Lundberg S.M., Lee S.-I. A unified approach to interpreting model predictions. In: Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 04–09 December 2017, Long Beach, CA, USA. 2017. P. 4765–4774.

19. Ханов А.М., Гусев А.В., Тюрганов А.Г. Искусственный интеллект в здравоохранении России: сбор и подготовка данных для машинного обучения. Журнал телемедицины и электронного здравоохранения. 2023;9(4):7–13. https://doi.org/10.29188/2712-9217-2023-9-4-7-13

20. Гельцер Б.И., Шахгельдян К.И., Рублев В.Ю. и др. Фенотипирование факторов риска и прогнозирование внутригоспитальной летальности у больных ишемической болезнью сердца после коронарного шунтирования на основе методов объяснимого искусственного интеллекта. Российский кардиологический журнал. 2023;28(4). https://doi.org/10.15829/1560-4071-2023-5302

21. Соловьёв И.А., Курочкина О.Н. Приложения искусственного интеллекта в кардиологии: обзор. Российский кардиологический журнал. 2024;29(11S). https://doi.org/10.15829/1560-4071-2024-5673

Лавьер Кейси Маркович

ORCID |

Московский университет имени С.Ю. Витте

Москва, Российская Федерация

Веселов Дмитрий Иванович

ORCID |

Финансовый университет при Правительстве Российской Федерации

Москва, Российская Федерация

Андриянов Никита Андреевич
Кандидат технических наук, доцент

ORCID | РИНЦ |

Финансовый университет при Правительстве Российской Федерации

Москва, Российская Федерация

Ключевые слова: машинное обучение, сердечно-сосудистые заболевания, catBoost, стекинг, SHAP, BCa bootstrap, NRI, IDI, многоцентровая выборка, конструирование признаков

Для цитирования: Лавьер К.М., Веселов Д.И., Андриянов Н.А. Ансамблевые методы машинного обучения для прогностической диагностики сердечно-сосудистых заболеваний: сравнительный анализ на многоцентровой выборке. Моделирование, оптимизация и информационные технологии. 2026;14(6). URL: https://moitvivt.ru/ru/journal/article?id=2302 DOI: 10.26102/2310-6018/2026.57.6.017

Полный текст статьи в PDF

Скачать JATS XML

Поступила в редакцию 20.03.2026

Поступила после рецензирования 15.06.2026

Принята к публикации 22.06.2026

Опубликована 30.06.2026