Ключевые слова: задача регрессии, отбор признаков, поиск и удаление аномалий, машинное обучение, биологический возраст
Моделирование биологического возраста пациентов на основе их функциональных показателей
УДК 51-76
DOI: 10.26102/2310-6018/2021.33.2.028
Процесс старения является сложным многофакторным явлением, на который оказывает влияние как внешние факторы – климатические, экономические и политические условия, так и индивидуальные особенности организма. В связи с этим моделирование данного процесса является нетривиальной задачей, требующего разностороннего подхода для ее решения. Анализ литературы показывает, что при моделировании темпов старения используются как концептуальные [1-4] модели, дающие представления как в принципе оценивать процесс старения, так и более конкретизированные расчетные модели [5-9], дающие возможность прогнозирования темпов старения. При построении расчетных моделей возникает противоречие между полнотой модели и возможностью ее использования для прогнозирования. Так модели, хорошо показывающие все взаимосвязи в процессе старения [7], построенные как правило, на графах, сложны в применении их к численной оценке темпа старения, хотя некоторые из них дают возможность построения индивидуальных траекторий старения [8-9]. В то же время, модели, имеющие сильный численный аппарат оценки темпа старения [5-6], как правило, заострены для решения узкой задачи и не охватывают всей сложности процесса старения. В такой ситуации использование методов машинного обучения в расчетных моделях оценки темпов старения является очень перспективным направлением [10-15], поскольку его применение позволяет учесть все многообразие факторов процесса старения, не вникая в сущность самого процесса. В данной работе методами машинного обучения проведен анализ корреляции функциональных показателей пациентов с их календарным возрастом и построению моделей прогнозирования биологического возраста пациентов. Анализ данных проводился с помощью авторских разработок на языке Python в среде Anaconda. Для анализа использовались функциональные показатели (10 штук) 1185 пациентов из базы данных клинического областного психико-неврологического госпиталя ветеранов войн в количестве. Анализ данных показал наличие статически значимой корреляции используемых показателей с календарным возрастом пациентов. В работе построены 5 моделей регрессии с помощью различных инструментов библиотеки sklern языка Python (пакетный градиентный спуск, стохастический градиентный спуск, гребневая регрессия, гребневая регрессия с Байесовским отбором, метод опорных векторов), а также использовались композиции алгоритмов из решающих деревьев (случайный лес и бустинг). Для улучшения качества модели применялись отбор признаков (add-dell) и поиск и удаление выбросов методом опорных векторов, изолирующего леса и методом ближайших соседей. Все полученные модели адекватны (проверка критерием Фишера), но наибольшую точность (R2 = 0,75) показала модель композиции случайного леса на полном наборе признаков после удаления аномалий методом опорных векторов. Результаты моделирования по линейным моделям показали, что наибольшие веса в модели имеют 3 функциональных показателя – аккомодация, жизненная емкость легких и острота слуха.
1. L´opez-Ot´ın C., Blasco M.A., Partridge L., Serrano M., Kroemer G. The hallmarks of aging. Cell 2013;153:1194–1217. DOI: 10.1016/j.cell.2013.05.039
2. Kennedy B.K., Berger S.L., Brunet A., Campisi J., Cuervo A.M., Epel E.S., Franceschi C., Lithgow G.J., Morimoto R.I., Pessin J.E., Rando T.A., Richardson A., Schadt E.E., Wyss-Coray T., Sierra F. Geroscience: Linking Aging to Chronic Disease. Cell 2014;159(4):709–713. DOI: 10.1016/j.cell.2014.10.039
3. Kirkwood T.B.L. Understanding the odd science of aging. Cell. 2005;120:437 – 447. DOI: 10.1016/j.cell.2005.01.027
4. Kirkwood T.B.L. Deciphering death: a commentary on Gompertz (1825) ‘On the nature of the function expressive of the law of human mortality, and on a new mode of determining the value of life contingencies’. Philosophical Transactions Of The Royal Society Of London Series B. 2015;370(1666):20140379–2014037. DOI: 10.1098/rstb.2014.0379
5. Yashin A.I., Arbeev K.G., Akushevich I., Kulminski A., Akushevich L., Ukraintseva S.V. Stochastic model for analysis of longitudinal data on aging and mortality. Mathematical Biosciences. 2007;208:538–551. DOI: 10.1016/j.mbs.2006.11.006
6. Yashin A.I., Arbeev K.G., Akushevich I., Kulminski A., Ukraintseva S.V., Stallard E., Land K.C. The quadratic hazard model for analyzing longitudinal data on aging, health, and the life span. Physics of Life Reviews. 2012;9:177–188. DOI: 10.1016/j.plrev.2012.05.002
7. Taneja S., Mitnitski A.B., Rockwood K., Rutenberg A.D. Dynamical network model for age-related health deficits and mortality. Physical Review E 2016:93(2):022309–022311. DOI: 10.1103/PhysRevE.93.022309
8. Farrell S.G., Mitnitski A.B., Rockwood K., Rutenberg A.D. Network model of human aging: Frailty limits and information measures. Physical Review E 2016:94(5):052409-052419. DOI: 10.1103/PhysRevE.94.052409
9. Farrell S, Mitnitski A, Rockwood K, Rutenberg A. Generating synthetic aging trajectories with a weighted network model using cross-sectional data. Scientific Reports. 2020:10(1):19833-19844. DOI: 10.1038/s41598-020-76827-3
10. Pierson E., Koh P.W., Hashimoto T., Koller D., Liang P. Inferring multidimensional rates of aging from cross-sectional data. Proceedings of the 22nd International Conference on Artificial Intelligence and Statistics (AISTATS) 2019:89:97–107
11. Putin E., Mamoshina P., Aliper A., Korzinkin M., Moskalev A., Kolosov A., Ostrovskiy A., Cantor C. Vijg J., Zhavoronkov A. Deep biomarkers of human aging: Application of deep neural networks to biomarker development. Aging (Albany NY). 2016;8(5):1021-1033. DOI: 10.18632/aging.100968
12. Zhavoronkov A., Mamoshina P. Deep Aging Clocks: The Emergence of AI-Based Biomarkers of Aging and Longevity. Trends Pharmacol Sci. 2019;40(8):546-549. DOI: 10.1016/j.tips.2019.05.004
13. Levine ME. Assessment of Epigenetic Clocks as Biomarkers of Aging in Basic and Population Research. J Gerontol A Biol Sci Med Sci. 2020;75(3):463-465. DOI: 10.1093/gerona/glaa021
14. Pyrkov T.V., Getmantsev E., Zhurov B., Avchaciov K., Pyatnitskiy M., Men'shikov, L., Khodova K., Gudkov A., Fedichev P. Quantitative characterization of biological age and frailty based on locomotor activity records. Aging (Albany NY). 2019;10:2973 - 2990. DOI: 10.1038/s41598-018-23534-9
15. Schultz M.B., Kane A.E., Mitchell S.J., MacArthur M.R., Warner E., Vogel D.S., Mitchell J.R., Howlett S.E., Bonkowski M.S., Sinclair D.A. Age and life expectancy clocks based on machine learning analysis of mouse frailty. Nature Communications. 2020;11(1):4618-4628. DOI: 10.1038/s41467-020-18446-0
16. Farrell S., Stubbings G., Rockwood K., Mitnitski A., Rutenberg A. The potential for complex computational models of aging. Mechanisms of Ageing and Development. 2020;193:111403-111418. DOI: 10.1016/j.mad.2020.111403
17. Zhavoronkov A., Mamoshina P., Vanhaelen Q., Scheibye-Knudsene M., Moskalev A., Alipera A. Artificial intelligence for aging and longevity research: Recent advances and perspectives. Ageing Research Reviews. 2019;49:49-66. DOI: 10.1016/j.arr.2018.11.003
18. Fedintsev A., Daria Kashtanova D., Tkacheva O., Strazhesko I., Kudryavtseva A., Baranova A., Moskalev A. Markers of arterial health could serve as accurate non‐invasive predictors of human biological and chronological age. Aging. 2017;9:1-13. DOI: 10.18632/aging.101227
19. Cohen A.A., Morissette-Thomas V., Ferrucci L., Fried L.P. Deep biomarkers of aging are population-dependent. Aging (Albany NY). 2016;8(9):2253-2255. DOI: 10.18632/aging
20. Громыко Г.Л. Теория статистики. М.:ИНФРА-М, 2002
21. Aggarwal C.C. Data Mining: The Textbook. New York: Springer, 2015
22. Воронцов К. В. Лекции по методу опорных векторов. Доступно по: http://www.ccas.ru/voron/download/SVM.pdf (дата обращения 12.03.2021)
23. Лимановская О. В., Алферьева Т. И. Основы машинного обучения: учебное пособие. Екатеринбург: Издательство Уральского университета, 2020
24. Guyon I, Elisseeff A. An introduction to variable and feature selection. J. Mach. Learn. Res. 2003;3: 1157–1182.
25. Liu F. T., Ting K. M., Zhou Z. Isolation Forest. Eighth IEEE International Conference on Data Mining, 2008; 413-422. DOI: 10.1109/ICDM.2008.17
26. Платформа для обработки данных и машинного обучения Anaconda. Доступно по: https://www.anaconda.com (дата обращения 18.02.2021)
27. Библиотека SciPy. Достапно по: https://www.scipy.org/index.html (дата обращения 18.02.2021)
28. Faris H., Mafarja M.M., Heidari A.A., Aljarah I., Al-Zoubi A.M., Mirjalili S., Fujita H. An efficient binary Salp Swarm Algorithm with crossover scheme for feature selection problems. Knowledge-Based Systems. 2018;154:43–67. DOI: 10.1016/j.knosys.2018.05.009
29. Библиотека XGBoost. Доступно по: https://xgboost.ai/ (дата обращения 17.02.2021)
30. Библиотека NumPy. Доступно по: https://numpy.org/ (дата обращения 18.02.2021)
31. Библиотека pandas. Доступно по: https://pandas.pydata.org/ (дата обращения 18.02.2021)
32. Библиотека Matplotlib. Доступно по: https://matplotlib.org/index.html (дата обращения 18.02.2021)
Ключевые слова: задача регрессии, отбор признаков, поиск и удаление аномалий, машинное обучение, биологический возраст
Для цитирования: Лимановская О.В., Гаврилов И.В., Мещанинов В.Н., Щербаков Д.Л., Колос Е.Н. Моделирование биологического возраста пациентов на основе их функциональных показателей. Моделирование, оптимизация и информационные технологии. 2021;9(2). URL: https://moitvivt.ru/ru/journal/pdf?id=966 DOI: 10.26102/2310-6018/2021.33.2.028
Поступила в редакцию 02.08.2021
Поступила после рецензирования 03.08.2021
Принята к публикации 11.08.2021
Опубликована 30.06.2021