Ключевые слова: классификация, классификатор, поток данных, байесовский критерий, байесовский классификатор
Классификация потоковых данных на основе байесовского критерия
УДК 004.852
DOI: 10.26102/2310-6018/2020.28.1.034
Рассматривается проблема классификации потоковых данных, поступающих из различных источников в случайные моменты времени. Это может быть поток данных, содержащих результаты измерения датчиков, расположенных в прибрежных зонах океанов, позволяющий оценивать параметры состояния экосистемы, и также поток текстов, получаемых, например, в письмах электронной почты и т. д. Интернет содержит большие объёмы неструктурированной информации, отсутствие организации которых делает работу с данными неудобной и ресурсоёмкой. Преодоление указанного недостатка является актуальной задачей. Классификация служит инструментом, позволяющим облегчить работу с неструктурированной информацией. Разработан алгоритм классификации потоковых данных на основе байесовского критерия. Построена математическая модель потоковых текстовых данных, позволяющая применять алгоритмы классификации текстов на естественном языке на потоковых данных. Предложена модификация наивного байесовского классификатора, использующая характеристику tf-idf как меру принадлежности терминов классам, позволяющая улучшить качество классификации. Классификатор был обучен с помощью машинного фонда русского языка. Разработано программное обеспечение, позволяющее извлекать потоковые текстовые данные из сети Интернет и производить классификацию разработанным алгоритмом в реальном времени.
1. Lomakina L.S., Subbotin A.N., Surkova A.S. Naïve Bayes Modification for Data Streams Classification. Proceedings of the Thirteenth International MEDCOAST Congress on Coastal and Marine Sciences, Engineering, Management and Conservation (MEDCOAST 2017). 2017;2:805-814.
2. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. Пособие. М.: МИЭМ. 2011.
3. Gaber М.М., Zaslavsky A., Krishnaswamy S. A Survey of Classification Methods in Data Streams. Data Streams; Ed. by Aggarwal С.C. Springer US. 2007.
4. Berry M.W., Kogan J. Text Mining. Applications and Theory. Wiley. 2010.
5. Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Байесовская классификация текстовых потоков. Системы управления и информационные технологии. 2016;4(66):60-64.
6. Субботин А.Н. Алгоритм классификации потоков текстовой информации на естественном языке. Научно-технический вестник Поволжья. 2020;1:18-21.
7. Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Программа классификации потоков текстовых данных на основе байесовского подхода. Свидетельство государственной регистрации программы для ЭВМ № 2017611236, 31 октября 2016 г.
Ключевые слова: классификация, классификатор, поток данных, байесовский критерий, байесовский классификатор
Для цитирования: Ломакина Л.С., Субботин А.Н. Классификация потоковых данных на основе байесовского критерия. Моделирование, оптимизация и информационные технологии. 2020;8(1). URL: https://moit.vivt.ru/wp-content/uploads/2020/02/LomakinaSubbotin_1_20_1.pdf DOI: 10.26102/2310-6018/2020.28.1.034
Опубликована 31.03.2020