Быстрый поиск аномалий в числовых рядах при помощи модифицированного метода Хампеля
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Быстрый поиск аномалий в числовых рядах при помощи модифицированного метода Хампеля

idГильмуллин М.Ф. Гильмуллин Т.М.  

УДК 004.942 + 519.246.8
DOI: 10.26102/2310-6018/2023.43.4.030

  • Аннотация
  • Список литературы
  • Об авторах

В статье рассмотрены и формально введены понятия аномалии числового ряда и функции-фильтра аномалий. Актуальность работы обусловлена отсутствием разработки единого подхода к пониманию понятия аномалии. В то же время они играют ключевую роль в решении многих проблем практики. В работе применяется метод измерения устойчивости выбранного способа статистической оценки на выбросы с использованием точек разрыва и скользящих окон. В основе метода фильтрации числового ряда на выбросы лежит комбинация медианы и среднего абсолютного отклонения. Применительно к решению широкого круга задач в ИТ-автоматизации предложена модификация метода Хампеля для определения выбросов в выборке. На языке Python разработаны функции фильтрации числового ряда на аномалии и определения индекса первого аномального элемента в ряду. В качестве примера на платформе Jupyter Notebook разработан сценарий для решения задачи быстрого поиска аномалий в биржевых ценах модифицированным методом Хампеля. Для получения выборки с выбросами используется авторская библиотека для генерации тестовых биржевых данных. Результаты эксперимента подтверждают, что предложенные алгоритмы позволяет четко фильтровать аномалии при различных значениях настраиваемых параметров. Отмечены достоинства и недостатки такого метода. Фильтр Хампеля легко поддается оптимизации и распараллеливанию. Материалы статьи представляют практическую ценность для решения задачи автоматизации выделения аномалий в числовых рядах.

1. Laxman S., Sastry P.S. A survey of temporal data mining. Sadhana. 2006;31:173–198. DOI: 10.1007/BF02719780.

2. Чесноков М.Ю. Поиск аномалий во временных рядах на основе ансамблей алгоритмов DBSCAN4 Москва; 2018. URL: http://www.isa.ru/aidt/images/documents/2018-01/99-107.pdf (дата обращения 01.10.2023).

3. Мастицкий С.Э. Анализ временных рядов с помощью R; 2020. URL: https://ranalytics.github.io/tsa-with-r/ch-anomaly-detection.html (дата обращения 01.10.2023).

4. Ardelean V. Outliers in Time Series. Department of Statistics and Econometrics, University of Erlangen-Nuremberg; 2011. URL: https://www.statistik.rw.fau.de/files/2016/03/v01-2011.pdf (дата обращения 01.10.2023).

5. Chandola V., Banerjee A., Kumar V. Anomaly detection: a survey, ACM Computing Surveys; 2009. URL: http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf (дата обращения 01.10.2023).

6. Hampel F.R. The influence curve and its role in robust estimation. Journal of the American Statistical Association. 1974;69:383–393. DOI: 10.2307/2285666.

7. Liu H., Shah S., Jiang W. On-line outlier detection and data cleaning. Computers & Chemical Engineering. 2004;28(9):1635–1647. URL: https://sites.ualberta.ca/~slshah/files/on_line_outlier_det.pdf (дата обращения: 01.10.2023).

8. Lewinson E. Python for Finance Cookbook — Second Edition. Birmingham, Packt; 2022. 740 p.

9. Hampel F.R. A general qualitative definition of robustness. Ann. Math. Stat. 1971;42:1887–1896.

10. Hampel F.R., Rousseeuw P.J., Ronchtti E.M., Stahel W.A. Robust Statistic: The Approach Based on Influence Functions. New York, Wiley & Sons; 1986. 536 p.

Гильмуллин Мансур Файзрахманович
Кандидат педагогических наук, Доцент

WoS | Scopus | ORCID | РИНЦ |

Независимый ИТ-эксперт

Казань, Российская Федерация

Гильмуллин Тимур Мансурович
Кандидат технических наук

Независимый ИТ-эксперт

Москва, Российская Федерация

Ключевые слова: числовые ряды, аномалии, выбросы, фильтрация, хампель

Для цитирования: Гильмуллин М.Ф. Гильмуллин Т.М. Быстрый поиск аномалий в числовых рядах при помощи модифицированного метода Хампеля. Моделирование, оптимизация и информационные технологии. 2023;11(4). Доступно по: https://moitvivt.ru/ru/journal/pdf?id=1482 DOI: 10.26102/2310-6018/2023.43.4.030

178

Полный текст статьи в PDF

Поступила в редакцию 04.12.2023

Поступила после рецензирования 08.12.2023

Принята к публикации 20.12.2023

Опубликована 27.12.2023