Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных

Дорофеев В.С.,  Волосатова Т.М. 

УДК 004.622
DOI: 10.26102/2310-6018/2022.38.3.013

  • Аннотация
  • Список литературы
  • Об авторах

Большинство методов машинного обучения показывают наибольшую эффективность при работе с данными, удовлетворяющими нормальному распределению. С другой стороны, обучающая выборка часто содержит «выбросы» различной природы, способные значи-тельно снизить точность методов машинного обучения. Таким образом, в любой задаче машинного обучения возникает проблема обнаружения выбросов. В статье приведена классификация основных типов выбросов. Рассмотрены различные методы обнаружения одномерных выбросов: метод, использующий критерий Граббса; метод Z-оценки; метод надежной Z-оценки (RZ-оценки); метод межквартильного размаха (IQR); метод процен-тильного уплотнения (Winsorization). Выполнено сравнение методов обнаружения одно-мерных выбросов. Для автоматизированного обнаружения выбросов предложен ансамбле-вый метод, объединяющий различные методы обнаружения одномерных выбросов. Ан-самблирование позволяет настроить автоматизированную процедуру обнаружения выбро-сов по правилу требуемой строгости. Предложенный метод применен для анализа и обна-ружения выбросов в данных по продажам товаров в период акции в крупной розничной сети. Показана возможность применения ансамблирования методов обнаружения выбро-сов для стратификации обучающей выборки. При этом абсолютная и относительная ошибка прогнозирования итоговой модели была снижена на 5 % по сравнению с исходной.

1. Reinsel D., Gantz J., Rydning J. The Digital of the World – From Edge to Core. IDC White Paper; 2018. Доступно по: https://www.seagate.com/ru/ru/our–story/data–age–2025/ (дата обращения: 17.05.2021).

2. Парасич А.В., Парасич В.А., Парасич И.В. Формирование обучающей выборки в зада-чах машинного обучения. Обзор. Информационно-управляющие системы. 2021;4(113):61–68.

3. Якимова В.А. Возможности и перспективы использования цифровых технологий в аудиторской деятельности. Вестник Санкт-Петербургского университета. Экономи-ка. 2020;2:287–318.

4. Бекетнова Ю.М. Сравнительный анализ методов машинного обучения при идентифи-кации признаков вовлеченности кредитных организаций и их клиентов в сомнитель-ные операции. Финансы: теория и практика. 2021;5:186–199.

5. Shulenin V.P. Robust Alternatives to the Standard Deviation in Processing of Physics Exper-imental Data. Russian Physics Journal. 2016:59(6):824–832.

6. Серышева И.А. Фильтрация выбросов в задачах статической и динамической обработ-ки данных в эталонах времени и частоты. Вестник Иркутского государственного тех-нического университета. 2018;22(10):67–77.

7. Горяинов В.Б., Горяинова Е.Р. Влияние аномальных наблюдений на оценку наимень-ших квадратов параметра авторегрессионного уравнения со случайным коэффициен-том. Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки. 2016;2:16–24. DOI: 10.18698/1812-3368-2016-2-16-24.

8. Piryonesi S. Madeh, El-Diraby, Tamer E. Role of Data Analytics in Infrastructure Asset Man-agement: Overcoming Data Size and Quality Problems. Journal of Transportation Engineer-ing, Part B: Pavements. 2020:146–148.

9. David A. Freedman. Statistical Models: Theory and Practice. Cambridge University Press; 2009. 442 p.

10. Gianni Franchi, Andrei Bursuc, Emanuel Aldea, Séverine Dubuisson, Isabelle Bloch. TRADI: Tracking deep neural network weight distributions. 16th European Conference on Computer Vision. 2020:1–27.

11. Лежебоков А.А., Кулиев Э.В. Технологии визуализации для прикладных задач интел-лектуального анализа данных. Известия КБНЦ РАН. 2019;4(90):14–23.

12. Житный М.В., Девяткина Т.Ю., Хубларова Т.С., Прохватова И.С. Методика экспери-ментального моделирования ударного воздействия имитаторов частиц космического мусора на солнечные элементы космического аппарата. Известия ТулГУ. Технические науки. 2020;5:32–40.

13. Ширяева Л.К., Репина Е.Г. О некоторых свойствах симметричной копулы Граббса. Вестн. Сам. гос. техн. ун-та. Сер. Физ.-мат. Науки. 2018;22(4):714–734. DOI: 10.14498/vsgtu1640.

14. McLeod S.A. Z-score: definition, calculation and interpretation. Simply Psychology; 2019. Доступно по: https://www.simplypsychology.org/z-score.html (дата обращения 17.05.2021).

15. Sapoetra D.B., Basuki R. Effect of service quality, religiosity, relationship closeness, and cus-tomer trust on customer satisfaction and loyalty at Bank Jatim Syariah. RJOAS. 2019;3:200–219.

16. Nurunnabi A., West G., Belton D. Robust Outlier Detection and Saliency Features Estimation in Point Cloud Data. 2013 International Conference on Computer and Robot Vision. 2013:98–105.

17. Выходцев Н.А. Использование искусственного интеллекта для оценки стоимости не-движимого имущества. Доклады ТУСУР. 2021;1:68–72.

18. Chernov G. How to learn to defeat noisy robot in rock-paper-scissors game: an exploratory study. Экономический журнал ВШЭ. 2020;4:503–538.

19. Евсеева С.А. Исследование эффективности процедур коллективного вывода при ре-шении задачи классификации. Актуальные проблемы авиации и космонавтики. 2019;2:41–43.

20. Lee B.K., Lessler J., Stuart E.A. Weight Trimming and Propensity Score Weighting. PLoS ONE. 2011;6(3). DOI: 10.1371/journal.pone.0018174.

21. Микрюков А.А., Бабаш А.В., Сизов В.А. Классификация событий в системах обеспе-чения информационной безопасности на основе нейросетевых технологий. Открытое образование. 2019;1:57–63.

22. Протасов В.И., Потапова З.Е. Методика кардинального снижения вероятности приня-тия ошибочных решений в системах коллективного интеллекта. Современные инфор-мационные технологии и ИТ-образование. 2019;3:588–601.

23. Baharad E., Goldberger J., Koppel M., Nitzan S. Beyond Con-dorcet: optimal aggregation rules using voting records. Theory and Decision. 2012;72(1):113–130.

24. Дорофеев В.С., Волосатова Т.М. Алгоритм подготовки обучающей выборки в задаче прогнозирования спроса. Математические методы в технологиях и технике. 2021;2:64–68.

25. Prokhorenkova L., Gusev G., Vorobev A., Dorogush A.V., Gulin A. CatBoost: unbiased boosting with categorical features. Advances in Neural Information Processing Systems. 2018:6637–6647.

Дорофеев Владимир Сергеевич

РИНЦ |

Московский государственный технический университет имени Н.Э. Баумана

Москва, Российская Федерация

Волосатова Тамара Михайловна
Кандидат технических наук, Доцент

РИНЦ |

Московский государственный технический университет имени Н.Э. Баумана

Москва, Российская Федерация

Ключевые слова: выбросы, машинное обучение, обучающая выборка, ансамблирование, метод Z-оценки, метод межквартильного размаха

Для цитирования: Дорофеев В.С., Волосатова Т.М. Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных. Моделирование, оптимизация и информационные технологии. 2022;10(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1210 DOI: 10.26102/2310-6018/2022.38.3.013

667

Полный текст статьи в PDF

Поступила в редакцию 11.07.2022

Поступила после рецензирования 25.07.2022

Принята к публикации 16.09.2022

Опубликована 30.09.2022