Ключевые слова: отбор признаков, задача бинарной классификации, анализ малых данных, машинное обучение, вспомогательные репродуктивные технологии
Сравнение эффективности различных методов отбора признаков для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения
УДК 519.683, 519-7
DOI: 10.26102/2310-6018/2020.30.3.025
Определение круга факторов, влияющих на объект исследования, является важнейшей задачей медицинских исследований. Ее решение осложняется большим числом разнообразных данных, включающих в себя обширную анамнестическую информацию и данные клинических исследований часто сочетающимся с ограниченным количеством наблюдаемых пациентов. Данная работа посвящена сравнению результатов, полученных различными методами отбора признаков для поиска набора предикторов, на основе которого создана модель с лучшим качеством прогноза, для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения (ЭКО). В качестве признаков использовались данные анамнеза женщин, представленные в бинарном виде. Выборка состояла из 68 признаков и 689 объектов. Признаки были исследованы на наличие взаимной корреляции, после чего применены методы и алгоритмы для поиска отбора значимых факторов: непараметрические критерии, интервальная оценка долей, Z-критерий для разности двух долей, взаимная информация, алгоритмы RFECV, ADD-DELL, Relief, алгоритмы, основанные на важности перестановок (Boruta, Permutation Importance, PIMP), алгоритмы отбора признаков при помощи модели (lasso, random forest). Для сравнения качества отобранных наборов признаков построены различные классификаторы, посчитана их метрика AUC и сложность модели. Все модели имеют высокое качество предсказания (AUC выше 95%). Лучшие из них построены на признаках, отобранных с помощью непараметрических критериев, отбора при помощи модели (lasso-регрессия), алгоритмов Boruta, Permutation Importance, RFECV, ReliefF. Оптимальным набором предикторов был выбран набор, состоящий из 30 бинарных признаков, полученный алгоритмом Boruta, из-за меньшей сложности модели при сравнительно высоком качестве (AUC модели 0,983). К значимым признакам отнесены: данные о наличии беременностей в анамнезе в целом, о внематочных и замерших беременностях, самостоятельных и срочных родах, абортах на ранних сроках в частности; гипертония, ишемия, инсульт, тромбозы, язвы, ожирение, сахарный диабет у ближайших родственников; проведение гормонального лечения в настоящее время, не связанного с процедурой ЭКО; аллергия; вредные профессиональные факторы; наличие нормальной продолжительности и стабильности менструального цикла без приема медицинских препаратов; гистероскопия, лапароскопия и лапаротомия в анамнезе; проведение резекций любого органа в мочеполовой системе; первая ли попытка ЭКО, наличие любых хирургических вмешательств, заболеваний мочеполовой системы; возраст и ИМТ пациентки; отсутствие хронических заболеваний; наличие диффузной фиброзно-кистозной мастопатии, гипотиреоза.
1. van Loendersloot L.L., van Wely M., Limpens J., Bossuyt P.M., Repping S., van der Veen F. Predictive factors in in vitro fertilization (IVF): a systematic review and meta-analysis. Hum Reprod Update. 2010;16(6):577–589. DOI: 10.1093/humupd/dmq015
2. Atasever M., Namlı Kalem M., Hatırnaz Ş., Hatırnaz E., Kalem Z., Kalaylıoğlu Z. Factors affecting clinical pregnancy rates after IUI for the treatment of unexplained infertility and mild male subfertility. J Turk Ger Gynecol Assoc. 2016;17:134–138. DOI: 10.5152/jtgga.2016.16056
3. Vaegter K.K., Lakic T.G., Olovsson M., Berglund L., Brodin T., Holte J. Which factors are most predictive for live birth after in vitro fertilization and intracytoplasmic sperm injection (IVF/ICSI) treatments? Analysis of 100 prospectively recorded variables in 8,400 IVF/ICSI single-embryo transfers. Fertil Steril. 2017;107(3):641–648.e2. DOI:10.1016/j.fertnstert.2016.12.005
4. Vogiatzi, P., Pouliakis, A., Siristatidis, C. An artificial neural network for the prediction of assisted reproduction outcome. J Assist Reprod Genet. 2019;36:1441–1448. DOI: 10.1007/s10815-019-01498-7
5. Ruey-Shiang Guh, Tsung-Chieh Jackson Wu, Shao-Ping Weng. Integrating genetic algorithm and decision tree learning for assistance in predicting in vitro fertilization outcomes. Expert Systems with Applications. 2011;38(4):4437–4449. DOI: 10.1016/j.eswa.2010.09.112
6. Hassan M.R., Al-Insaif S., Hossain M.I., Kamruzzaman J. A machine learning approach for prediction of pregnancy outcome following IVF treatment. Neural Comput & Applic. 2020;32:2283–2297. DOI: 10.1007/s00521-018-3693-9
7. Hafiz P., Nematollahi M., Boostani R., Namavar Jahromi B. Predicting Implantation Outcome of In Vitro Fertilization and Intracytoplasmic Sperm Injection Using Data Mining Techniques. Int J Fertil Steril. 2017;11(3):184–190. DOI: 10.22074/ijfs.2017.4882
8. Raef B, Ferdousi R. A Review of Machine Learning Approaches in Assisted Reproductive Technologies. Acta Inform Med. 2019;27(3):205–211. DOI:10.5455/aim.2019.27.205-211
9. Guyon I, Elisseeff A. An introduction to variable and feature selection. J. Mach. Learn. Res. 2003;3:1157–1182.
10. Guyon, I., Weston, J., Barnhill, S., Vapnik V. Gene Selection for Cancer Classification using Support Vector Machines. Machine Learning. 2002;46:389–422. DOI: 10.1023/A:1012487302797
11. Saeys Y., Inza I., Larrañaga P. A review of feature selection techniques in bioinformatics. Bioinformatics. 2007;23(19):2507–2517. DOI: 10.1093/bioinformatics/btm344
12. Воронцов К. В. Лекции по методам оценивания и выбора моделей. Доступно по: http://www.ccas.ru/voron/download/Modeling.pdf (дата обращения 18.08.2020)
13. Altmann A., Toloşi L., Sander O., Lengauer T. Permutation importance: a corrected feature importance measure. Bioinformatics. 2010;26(10):1340–1347. DOI: 10.1093/bioinformatics/btq134
14. Kenji K., Rendell A. L. The feature selection problem: traditional methods and a new algorithm. AAAI. 1992;129–134
15. Kursa, M., Rudnicki. Feature Selection with the Boruta Package. Journal of Statistical Software. 2010;36(11):1–13. DOI: 10.18637/jss.v036.i11
16. Mazaheri V., Khodadadi H. Heart arrhythmia diagnosis based on the combination of morphological, frequency and nonlinear features of ECG signals and metaheuristic feature selection algorithm. Expert Systems with Applications. 2020;161:113697. DOI: 10.1016/j.eswa.2020.113697
17. Faris H., Mafarja M.M., Heidari A.A., Aljarah I., Al-Zoubi A.M., Mirjalili S., Fujita H. An efficient binary Salp Swarm Algorithm with crossover scheme for feature selection problems. Knowledge-Based Systems. 2018:154;43–67. DOI: 10.1016/j.knosys.2018.05.009
18. He H., Bai Y., Garcia E.A., Li S. ADASYN: Adaptive synthetic sampling approach for imbalanced learning. 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). 2008;1322–1328. DOI: 10.1109/IJCNN.2008.4633969
19. Lemaître G., Nogueira F., Aridas C.K. Imbalanced-learn: Imbalanced-learn: A python toolbox to tackle the curse of imbalanced datasets in machine learning. JMLR. 2017;18(17):1−5.
20. Гланц С. Медико-биологическая статистика. Пер. с англ. М.: Практика;1998.
21. Rothman K.J. A Show of Confidence. N Engl J Med. 1978;299(24):1362−1363. DOI: 10.1056/NEJM197812142992410
22. Das A.K., Kumar S., Jain S., Goswami S., Chakrabarti A., Chakraborty B. An informationtheoretic graph-based approach for feature selection. Sādhanā. 2020;45:11. DOI: 10.1007/s12046-019-1238-2
23. Battiti R. Using mutual information for selecting features in supervised neural net learning. IEEE Transactions on Neural Networks. 1994;5(4):537−550. DOI: 10.1109/72.298224
24. Kononenko I. Estimating attributes: Analysis and extensions of RELIEF. Lecture Notes in Computer Science (Lecture Notes in Artificial Intelligence). 1994;784:171−182.
25. Robnik-Sikonja M., Kononenko I. An adaptation of Relief for attribute estimation in regression. ICML '97: Proceedings of the Fourteenth International Conference on Machine Learning. 1997;296–304.
26. Hamon J. Optimisation combinatoire pour la sélection de variables en régression en grande dimension: Application en génétique animale. Applications [stat.AP]. Université des Sciences et Technologie de Lille - Lille I, 2013. Français. fftel-00920205
27. Реализация алгоритма RFECV в библиотеке Scikit-learn. Доступно по: https://scikitlearn.org/stable/modules/generated/sklearn.feature_selection.RFECV. html#sklearn.feature_selection.RFECV (дата обращения 18.08.2020)
28. Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R., Dubourg V., Vanderplas J., Passos A., Cournapeau D., Brucher M., Perrot M., Duchesnay É. Scikit-learn: Machine Learning in Python. JMLR. 2011;12(85):2825−2830.
29. Натекин А. Градиентный бустинг: возможности, особенности и фишки за пределами стандартных kaggle-style задач. Moscow Data Science Meetup. 2017. Доступно по: https://www.youtube.com/watch?time_continue=746&v=cM2c47Xlqk&feature=emb_logo (дата обращения 18.08.2020)
30. Шитиков В. К., Мастицкий С. Э. Классификация, регрессия, алгоритмы Data Mining с использованием R. 2017. Доступно по: https://github.com/ranalytics/data-mining
31. Библиотека ELI5. Доступно по: https://eli5.readthedocs.io/en/latest/index.html# (дата обращения 18.08.2020)
32. Платформа для обработки данных и машинного обучения Anaconda. Доступно по: https://www.anaconda.com (дата обращения 18.08.2020)
33. Библиотека SciPy. Достапно по: https://www.scipy.org/index.html (дата обращения 18.08.2020)
34. Библиотека ReliefF. Доступно по: https://pypi.org/project/ReliefF/#description (дата обращения 18.08.2020)
35. Библиотека LightGBM. Доступно по: https://lightgbm.readthedocs.io/en/latest/index.html# (дата обращения 18.08.2020)
36. Grellier O. Feature Selection with Null Importances. Статья на Kaggle. Доступно по: https://www.kaggle.com/ogrellier/feature-selection-with-null-importances (дата обращения 18.08.2020)
37. Python-реализация метода Boruta. Доступно по: https://github.com/scikit-learncontrib/boruta_py (дата обращения 18.08.2020)
38. Библиотека NumPy. Доступно по: https://numpy.org/ (дата обращения 18.08.2020)
39. Библиотека pandas. Доступно по: https://pandas.pydata.org/ (дата обращения 18.08.2020)
40. Библиотека Matplotlib. Доступно по: https://matplotlib.org/index.html (дата обращения 18.08.2020)
41. Библиотека seaborn. Доступно по: https://seaborn.pydata.org/# (дата обращения 18.08.2020)
42. Bergstra, J., Yamins D., Cox D.D. Making a Science of Model Search: Hyperparameter Optimizationin Hundreds of Dimensions for Vision Architectures. JMLR Workshop and Conference Proceedings. 2013;28(1):115–123.
43. Гржибовский А. М. Анализ номинальных данных (независимые наблюдения). Экология человека. 2008;6:58-68.
44. Библиотека Matplotlib. Доступно по: https://matplotlib.org/index.html (дата обращения 18.08.2020)
Ключевые слова: отбор признаков, задача бинарной классификации, анализ малых данных, машинное обучение, вспомогательные репродуктивные технологии
Для цитирования: Синотова С.Л., Лимановская О.В., Плаксина А.Н., Макутина В.А. Сравнение эффективности различных методов отбора признаков для решения задачи бинарной классификации предсказания наступления беременности при проведении экстракорпорального оплодотворения. Моделирование, оптимизация и информационные технологии. 2020;8(3). URL: https://moit.vivt.ru/wp-content/uploads/2020/08/SinotovaSoavtors_3_20_1.pdf DOI: 10.26102/2310-6018/2020.30.3.025
Опубликована 30.09.2020