Ключевые слова: наивный байесовский классификатор, text mining, алгоритм, теорема байеса, анализ документа
ПРИМЕНЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ДЛЯ ОПРЕДЕЛЕНИЯ ТЕМАТИКИ ТЕКСТА
УДК 004.912
DOI:
Актуальность исследования обусловлена потребностью современного общества в автоматической классификации данных. В данной работе рассмотрен байесовский алгоритм на примере определения тематики текста. Целью работы является разработка, выявление и решение проблем, возникающих во время реализации и непосредственной работы классификатора, а также оценка его эффективности. Выявлены проблемы арифметического переполнения и появления нулевой вероятности в результате. Предложено их решение с помощью сглаживания Лапласа и свойства логарифмов. Также представлены подходы по оптимизации и увеличению скорости работы программного модуля. В результате был реализован байесовский классификатор. Его обучение проводилось на базе наборов статей 10 различных тематик. На основе полученных данных проведена тестовая классификация и выполнена проверка корректности данной операции. Материалы статьи представляют практическую ценность для тех, кто собирается применить рассмотренный алгоритм или подобные ему в своих исследованиях.
Ключевые слова: наивный байесовский классификатор, text mining, алгоритм, теорема байеса, анализ документа
Для цитирования: Чупин П.Г., Афонин А.Ю., Шанов С.В. ПРИМЕНЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ДЛЯ ОПРЕДЕЛЕНИЯ ТЕМАТИКИ ТЕКСТА. Моделирование, оптимизация и информационные технологии. 2018;6(1). URL: https://moit.vivt.ru/wp-content/uploads/2018/01/ShanovSoavtori_1_1_18.pdf DOI:
Опубликована 31.03.2018