Классификация потоковых данных на основе байесовского критерия
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Классификация потоковых данных на основе байесовского критерия

Ломакина Л.С.,  Субботин А.Н. 

УДК 004.852
DOI: 10.26102/2310-6018/2020.28.1.034

  • Аннотация
  • Список литературы
  • Об авторах

Рассматривается проблема классификации потоковых данных, поступающих из различных источников в случайные моменты времени. Это может быть поток данных, содержащих результаты измерения датчиков, расположенных в прибрежных зонах океанов, позволяющий оценивать параметры состояния экосистемы, и также поток текстов, получаемых, например, в письмах электронной почты и т. д. Интернет содержит большие объёмы неструктурированной информации, отсутствие организации которых делает работу с данными неудобной и ресурсоёмкой. Преодоление указанного недостатка является актуальной задачей. Классификация служит инструментом, позволяющим облегчить работу с неструктурированной информацией. Разработан алгоритм классификации потоковых данных на основе байесовского критерия. Построена математическая модель потоковых текстовых данных, позволяющая применять алгоритмы классификации текстов на естественном языке на потоковых данных. Предложена модификация наивного байесовского классификатора, использующая характеристику tf-idf как меру принадлежности терминов классам, позволяющая улучшить качество классификации. Классификатор был обучен с помощью машинного фонда русского языка. Разработано программное обеспечение, позволяющее извлекать потоковые текстовые данные из сети Интернет и производить классификацию разработанным алгоритмом в реальном времени.

1. Lomakina L.S., Subbotin A.N., Surkova A.S. Naïve Bayes Modification for Data Streams Classification. Proceedings of the Thirteenth International MEDCOAST Congress on Coastal and Marine Sciences, Engineering, Management and Conservation (MEDCOAST 2017). 2017;2:805-814.

2. Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. Пособие. М.: МИЭМ. 2011.

3. Gaber М.М., Zaslavsky A., Krishnaswamy S. A Survey of Classification Methods in Data Streams. Data Streams; Ed. by Aggarwal С.C. Springer US. 2007.

4. Berry M.W., Kogan J. Text Mining. Applications and Theory. Wiley. 2010.

5. Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Байесовская классификация текстовых потоков. Системы управления и информационные технологии. 2016;4(66):60-64.

6. Субботин А.Н. Алгоритм классификации потоков текстовой информации на естественном языке. Научно-технический вестник Поволжья. 2020;1:18-21.

7. Ломакина Л.С., Ломакин Д.В., Субботин А.Н. Программа классификации потоков текстовых данных на основе байесовского подхода. Свидетельство государственной регистрации программы для ЭВМ № 2017611236, 31 октября 2016 г.

Ломакина Любовь Сергеевна
доктор технических наук, профессор
Email: llomakina@list.ru

Нижегородский Государственный Технический Университет им. Р.Е. Алексеева

Нижний Новгород, Российская Федерация

Субботин Артем Николаевич

Email: turnonmore@yandex.ru

Нижегородский Государственный Технический Университет им. Р.Е. Алексеева
ООО «СВТЕКНН»

Нижний Новгород, Российская Федерация

Ключевые слова: классификация, классификатор, поток данных, байесовский критерий, байесовский классификатор

Для цитирования: Ломакина Л.С., Субботин А.Н. Классификация потоковых данных на основе байесовского критерия. Моделирование, оптимизация и информационные технологии. 2020;8(1). URL: https://moit.vivt.ru/wp-content/uploads/2020/02/LomakinaSubbotin_1_20_1.pdf DOI: 10.26102/2310-6018/2020.28.1.034

831

Полный текст статьи в PDF

Опубликована 31.03.2020