Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных

Дорофеев В.С.,  Волосатова Т.М. 

УДК 004.622
DOI: 10.26102/2310-6018/2022.38.3.013

  • Аннотация
  • Список литературы
  • Об авторах

Большинство методов машинного обучения показывают наибольшую эффективность при работе с данными, удовлетворяющими нормальному распределению. С другой стороны, обучающая выборка часто содержит «выбросы» различной природы, способные значи-тельно снизить точность методов машинного обучения. Таким образом, в любой задаче машинного обучения возникает проблема обнаружения выбросов. В статье приведена классификация основных типов выбросов. Рассмотрены различные методы обнаружения одномерных выбросов: метод, использующий критерий Граббса; метод Z-оценки; метод надежной Z-оценки (RZ-оценки); метод межквартильного размаха (IQR); метод процен-тильного уплотнения (Winsorization). Выполнено сравнение методов обнаружения одно-мерных выбросов. Для автоматизированного обнаружения выбросов предложен ансамбле-вый метод, объединяющий различные методы обнаружения одномерных выбросов. Ан-самблирование позволяет настроить автоматизированную процедуру обнаружения выбро-сов по правилу требуемой строгости. Предложенный метод применен для анализа и обна-ружения выбросов в данных по продажам товаров в период акции в крупной розничной сети. Показана возможность применения ансамблирования методов обнаружения выбро-сов для стратификации обучающей выборки. При этом абсолютная и относительная ошибка прогнозирования итоговой модели была снижена на 5 % по сравнению с исходной.

Ключевые слова: выбросы, машинное обучение, обучающая выборка, ансамблирование, метод Z-оценки, метод межквартильного размаха

Для цитирования: Дорофеев В.С., Волосатова Т.М. Ансамблирование методов обнаружения выбросов при подготовке обучающей выборки данных. Моделирование, оптимизация и информационные технологии. 2022;10(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1210 DOI: 10.26102/2310-6018/2022.38.3.013

999

Полный текст статьи в PDF

Поступила в редакцию 11.07.2022

Поступила после рецензирования 25.07.2022

Принята к публикации 16.09.2022

Опубликована 30.09.2022