Ключевые слова: наивный байесовский классификатор, text mining, алгоритм, теорема байеса, анализ документа
ПРИМЕНЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ДЛЯ ОПРЕДЕЛЕНИЯ ТЕМАТИКИ ТЕКСТА
УДК 004.912
DOI:
Актуальность исследования обусловлена потребностью современного общества в автоматической классификации данных. В данной работе рассмотрен байесовский алгоритм на примере определения тематики текста. Целью работы является разработка, выявление и решение проблем, возникающих во время реализации и непосредственной работы классификатора, а также оценка его эффективности. Выявлены проблемы арифметического переполнения и появления нулевой вероятности в результате. Предложено их решение с помощью сглаживания Лапласа и свойства логарифмов. Также представлены подходы по оптимизации и увеличению скорости работы программного модуля. В результате был реализован байесовский классификатор. Его обучение проводилось на базе наборов статей 10 различных тематик. На основе полученных данных проведена тестовая классификация и выполнена проверка корректности данной операции. Материалы статьи представляют практическую ценность для тех, кто собирается применить рассмотренный алгоритм или подобные ему в своих исследованиях.
1. Text Mining [Электронный ресурс]. – Режим доступа: https://sites.google.com/site/upravlenieznaniami/tehnologii-upravleniaznaniami/text-mining-web-mining/text-mining Управление знаниями – (Дата обращения: 04.02.2018).
2. А. С. Епрев Автоматическая классификация текстовых документов. // Математические структуры и моделирование 2010, вып. 21, с.65 - 81
3. Наивный байесовский классификатор [Электронный ресурс]. – Режим доступа: http://bazhenov.me/blog/2012/06/11/naive-bayes – (Дата обращения: 04.02.2018).
4. А. А. Алексеев, А. С, Катасёв, А. Е. Кириллов, А. П. Кирпичников Классификация текстовых документов на основе Text Minig // Вестник технологического университета. 2016. Т.19, №18 стр 116 – 119.
5. Морфологический анализатор pymorphy2 [Электронный ресурс]. – Режим доступа: https://pymorphy2.readthedocs.io/en/latest/ – (Дата обращения: 04.02.2018).
Ключевые слова: наивный байесовский классификатор, text mining, алгоритм, теорема байеса, анализ документа
Для цитирования: Чупин П.Г., Афонин А.Ю., Шанов С.В. ПРИМЕНЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ДЛЯ ОПРЕДЕЛЕНИЯ ТЕМАТИКИ ТЕКСТА. Моделирование, оптимизация и информационные технологии. 2018;6(1). URL: https://moit.vivt.ru/wp-content/uploads/2018/01/ShanovSoavtori_1_1_18.pdf DOI:
Опубликована 31.03.2018