Ключевые слова: числовые ряды, аномалии, выбросы, фильтрация, хампель
Быстрый поиск аномалий в числовых рядах при помощи модифицированного метода Хампеля
УДК 004.942 + 519.246.8
DOI: 10.26102/2310-6018/2023.43.4.030
В статье рассмотрены и формально введены понятия аномалии числового ряда и функции-фильтра аномалий. Актуальность работы обусловлена отсутствием разработки единого подхода к пониманию понятия аномалии. В то же время они играют ключевую роль в решении многих проблем практики. В работе применяется метод измерения устойчивости выбранного способа статистической оценки на выбросы с использованием точек разрыва и скользящих окон. В основе метода фильтрации числового ряда на выбросы лежит комбинация медианы и среднего абсолютного отклонения. Применительно к решению широкого круга задач в ИТ-автоматизации предложена модификация метода Хампеля для определения выбросов в выборке. На языке Python разработаны функции фильтрации числового ряда на аномалии и определения индекса первого аномального элемента в ряду. В качестве примера на платформе Jupyter Notebook разработан сценарий для решения задачи быстрого поиска аномалий в биржевых ценах модифицированным методом Хампеля. Для получения выборки с выбросами используется авторская библиотека для генерации тестовых биржевых данных. Результаты эксперимента подтверждают, что предложенные алгоритмы позволяет четко фильтровать аномалии при различных значениях настраиваемых параметров. Отмечены достоинства и недостатки такого метода. Фильтр Хампеля легко поддается оптимизации и распараллеливанию. Материалы статьи представляют практическую ценность для решения задачи автоматизации выделения аномалий в числовых рядах.
1. Laxman S., Sastry P.S. A survey of temporal data mining. Sadhana. 2006;31:173–198. DOI: 10.1007/BF02719780.
2. Чесноков М.Ю. Поиск аномалий во временных рядах на основе ансамблей алгоритмов DBSCAN4 Москва; 2018. URL: http://www.isa.ru/aidt/images/documents/2018-01/99-107.pdf (дата обращения 01.10.2023).
3. Мастицкий С.Э. Анализ временных рядов с помощью R; 2020. URL: https://ranalytics.github.io/tsa-with-r/ch-anomaly-detection.html (дата обращения 01.10.2023).
4. Ardelean V. Outliers in Time Series. Department of Statistics and Econometrics, University of Erlangen-Nuremberg; 2011. URL: https://www.statistik.rw.fau.de/files/2016/03/v01-2011.pdf (дата обращения 01.10.2023).
5. Chandola V., Banerjee A., Kumar V. Anomaly detection: a survey, ACM Computing Surveys; 2009. URL: http://cucis.ece.northwestern.edu/projects/DMS/publications/AnomalyDetection.pdf (дата обращения 01.10.2023).
6. Hampel F.R. The influence curve and its role in robust estimation. Journal of the American Statistical Association. 1974;69:383–393. DOI: 10.2307/2285666.
7. Liu H., Shah S., Jiang W. On-line outlier detection and data cleaning. Computers & Chemical Engineering. 2004;28(9):1635–1647. URL: https://sites.ualberta.ca/~slshah/files/on_line_outlier_det.pdf (дата обращения: 01.10.2023).
8. Lewinson E. Python for Finance Cookbook — Second Edition. Birmingham, Packt; 2022. 740 p.
9. Hampel F.R. A general qualitative definition of robustness. Ann. Math. Stat. 1971;42:1887–1896.
10. Hampel F.R., Rousseeuw P.J., Ronchtti E.M., Stahel W.A. Robust Statistic: The Approach Based on Influence Functions. New York, Wiley & Sons; 1986. 536 p.
Ключевые слова: числовые ряды, аномалии, выбросы, фильтрация, хампель
Для цитирования: Гильмуллин М.Ф., Гильмуллин Т.М. Быстрый поиск аномалий в числовых рядах при помощи модифицированного метода Хампеля. Моделирование, оптимизация и информационные технологии. 2023;11(4). URL: https://moitvivt.ru/ru/journal/pdf?id=1482 DOI: 10.26102/2310-6018/2023.43.4.030
Поступила в редакцию 04.12.2023
Поступила после рецензирования 08.12.2023
Принята к публикации 20.12.2023
Опубликована 31.12.2023