Ключевые слова: выбросы, машинное обучение, обучающая выборка, ансамблирование, метод Z-оценки, метод межквартильного размаха
Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных
УДК 004.622
DOI: 10.26102/2310-6018/2022.38.3.013
Большинство методов машинного обучения показывают наибольшую эффективность при работе с данными, удовлетворяющими нормальному распределению. С другой стороны, обучающая выборка часто содержит «выбросы» различной природы, способные значи-тельно снизить точность методов машинного обучения. Таким образом, в любой задаче машинного обучения возникает проблема обнаружения выбросов. В статье приведена классификация основных типов выбросов. Рассмотрены различные методы обнаружения одномерных выбросов: метод, использующий критерий Граббса; метод Z-оценки; метод надежной Z-оценки (RZ-оценки); метод межквартильного размаха (IQR); метод процен-тильного уплотнения (Winsorization). Выполнено сравнение методов обнаружения одно-мерных выбросов. Для автоматизированного обнаружения выбросов предложен ансамбле-вый метод, объединяющий различные методы обнаружения одномерных выбросов. Ан-самблирование позволяет настроить автоматизированную процедуру обнаружения выбро-сов по правилу требуемой строгости. Предложенный метод применен для анализа и обна-ружения выбросов в данных по продажам товаров в период акции в крупной розничной сети. Показана возможность применения ансамблирования методов обнаружения выбро-сов для стратификации обучающей выборки. При этом абсолютная и относительная ошибка прогнозирования итоговой модели была снижена на 5 % по сравнению с исходной.
1. Reinsel D., Gantz J., Rydning J. The Digital of the World – From Edge to Core. IDC White Paper; 2018. Доступно по: https://www.seagate.com/ru/ru/our–story/data–age–2025/ (дата обращения: 17.05.2021).
2. Парасич А.В., Парасич В.А., Парасич И.В. Формирование обучающей выборки в зада-чах машинного обучения. Обзор. Информационно-управляющие системы. 2021;4(113):61–68.
3. Якимова В.А. Возможности и перспективы использования цифровых технологий в аудиторской деятельности. Вестник Санкт-Петербургского университета. Экономи-ка. 2020;2:287–318.
4. Бекетнова Ю.М. Сравнительный анализ методов машинного обучения при идентифи-кации признаков вовлеченности кредитных организаций и их клиентов в сомнитель-ные операции. Финансы: теория и практика. 2021;5:186–199.
5. Shulenin V.P. Robust Alternatives to the Standard Deviation in Processing of Physics Exper-imental Data. Russian Physics Journal. 2016:59(6):824–832.
6. Серышева И.А. Фильтрация выбросов в задачах статической и динамической обработ-ки данных в эталонах времени и частоты. Вестник Иркутского государственного тех-нического университета. 2018;22(10):67–77.
7. Горяинов В.Б., Горяинова Е.Р. Влияние аномальных наблюдений на оценку наимень-ших квадратов параметра авторегрессионного уравнения со случайным коэффициен-том. Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки. 2016;2:16–24. DOI: 10.18698/1812-3368-2016-2-16-24.
8. Piryonesi S. Madeh, El-Diraby, Tamer E. Role of Data Analytics in Infrastructure Asset Man-agement: Overcoming Data Size and Quality Problems. Journal of Transportation Engineer-ing, Part B: Pavements. 2020:146–148.
9. David A. Freedman. Statistical Models: Theory and Practice. Cambridge University Press; 2009. 442 p.
10. Gianni Franchi, Andrei Bursuc, Emanuel Aldea, Séverine Dubuisson, Isabelle Bloch. TRADI: Tracking deep neural network weight distributions. 16th European Conference on Computer Vision. 2020:1–27.
11. Лежебоков А.А., Кулиев Э.В. Технологии визуализации для прикладных задач интел-лектуального анализа данных. Известия КБНЦ РАН. 2019;4(90):14–23.
12. Житный М.В., Девяткина Т.Ю., Хубларова Т.С., Прохватова И.С. Методика экспери-ментального моделирования ударного воздействия имитаторов частиц космического мусора на солнечные элементы космического аппарата. Известия ТулГУ. Технические науки. 2020;5:32–40.
13. Ширяева Л.К., Репина Е.Г. О некоторых свойствах симметричной копулы Граббса. Вестн. Сам. гос. техн. ун-та. Сер. Физ.-мат. Науки. 2018;22(4):714–734. DOI: 10.14498/vsgtu1640.
14. McLeod S.A. Z-score: definition, calculation and interpretation. Simply Psychology; 2019. Доступно по: https://www.simplypsychology.org/z-score.html (дата обращения 17.05.2021).
15. Sapoetra D.B., Basuki R. Effect of service quality, religiosity, relationship closeness, and cus-tomer trust on customer satisfaction and loyalty at Bank Jatim Syariah. RJOAS. 2019;3:200–219.
16. Nurunnabi A., West G., Belton D. Robust Outlier Detection and Saliency Features Estimation in Point Cloud Data. 2013 International Conference on Computer and Robot Vision. 2013:98–105.
17. Выходцев Н.А. Использование искусственного интеллекта для оценки стоимости не-движимого имущества. Доклады ТУСУР. 2021;1:68–72.
18. Chernov G. How to learn to defeat noisy robot in rock-paper-scissors game: an exploratory study. Экономический журнал ВШЭ. 2020;4:503–538.
19. Евсеева С.А. Исследование эффективности процедур коллективного вывода при ре-шении задачи классификации. Актуальные проблемы авиации и космонавтики. 2019;2:41–43.
20. Lee B.K., Lessler J., Stuart E.A. Weight Trimming and Propensity Score Weighting. PLoS ONE. 2011;6(3). DOI: 10.1371/journal.pone.0018174.
21. Микрюков А.А., Бабаш А.В., Сизов В.А. Классификация событий в системах обеспе-чения информационной безопасности на основе нейросетевых технологий. Открытое образование. 2019;1:57–63.
22. Протасов В.И., Потапова З.Е. Методика кардинального снижения вероятности приня-тия ошибочных решений в системах коллективного интеллекта. Современные инфор-мационные технологии и ИТ-образование. 2019;3:588–601.
23. Baharad E., Goldberger J., Koppel M., Nitzan S. Beyond Con-dorcet: optimal aggregation rules using voting records. Theory and Decision. 2012;72(1):113–130.
24. Дорофеев В.С., Волосатова Т.М. Алгоритм подготовки обучающей выборки в задаче прогнозирования спроса. Математические методы в технологиях и технике. 2021;2:64–68.
25. Prokhorenkova L., Gusev G., Vorobev A., Dorogush A.V., Gulin A. CatBoost: unbiased boosting with categorical features. Advances in Neural Information Processing Systems. 2018:6637–6647.
Ключевые слова: выбросы, машинное обучение, обучающая выборка, ансамблирование, метод Z-оценки, метод межквартильного размаха
Для цитирования: Дорофеев В.С., Волосатова Т.М. Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных. Моделирование, оптимизация и информационные технологии. 2022;10(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1210 DOI: 10.26102/2310-6018/2022.38.3.013
Поступила в редакцию 11.07.2022
Поступила после рецензирования 25.07.2022
Принята к публикации 16.09.2022
Опубликована 30.09.2022