ПРИМЕНЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ДЛЯ ОПРЕДЕЛЕНИЯ ТЕМАТИКИ ТЕКСТА
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

ПРИМЕНЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ДЛЯ ОПРЕДЕЛЕНИЯ ТЕМАТИКИ ТЕКСТА

Чупин П.Г.   Афонин А.Ю.   Шанов С.В.  

УДК 004.912
DOI:

  • Аннотация
  • Список литературы
  • Об авторах

Актуальность исследования обусловлена потребностью современного общества в автоматической классификации данных. В данной работе рассмотрен байесовский алгоритм на примере определения тематики текста. Целью работы является разработка, выявление и решение проблем, возникающих во время реализации и непосредственной работы классификатора, а также оценка его эффективности. Выявлены проблемы арифметического переполнения и появления нулевой вероятности в результате. Предложено их решение с помощью сглаживания Лапласа и свойства логарифмов. Также представлены подходы по оптимизации и увеличению скорости работы программного модуля. В результате был реализован байесовский классификатор. Его обучение проводилось на базе наборов статей 10 различных тематик. На основе полученных данных проведена тестовая классификация и выполнена проверка корректности данной операции. Материалы статьи представляют практическую ценность для тех, кто собирается применить рассмотренный алгоритм или подобные ему в своих исследованиях.

1. Text Mining [Электронный ресурс]. – Режим доступа: https://sites.google.com/site/upravlenieznaniami/tehnologii-upravleniaznaniami/text-mining-web-mining/text-mining Управление знаниями – (Дата обращения: 04.02.2018).

2. А. С. Епрев Автоматическая классификация текстовых документов. // Математические структуры и моделирование 2010, вып. 21, с.65 - 81

3. Наивный байесовский классификатор [Электронный ресурс]. – Режим доступа: http://bazhenov.me/blog/2012/06/11/naive-bayes – (Дата обращения: 04.02.2018).

4. А. А. Алексеев, А. С, Катасёв, А. Е. Кириллов, А. П. Кирпичников Классификация текстовых документов на основе Text Minig // Вестник технологического университета. 2016. Т.19, №18 стр 116 – 119.

5. Морфологический анализатор pymorphy2 [Электронный ресурс]. – Режим доступа: https://pymorphy2.readthedocs.io/en/latest/ – (Дата обращения: 04.02.2018).

Чупин Павел Георгиевич

Email: pavelchupin94@yandex.ru

Пензенский государственный университет

Пенза, Российская Федерация

Афонин Александр Юрьевич
кандидат технических наук
Email: afonin@pnzgu.ru

Пензенский государственный университет

Пенза, Российская Федерация

Шанов Сергей Владимирович

Email: aesfur@gmail.com

Пензенский государственный университет

Пенза, Российская Федерация

Ключевые слова: наивный байесовский классификатор, text mining, алгоритм, теорема байеса, анализ документа

Для цитирования: Чупин П.Г. Афонин А.Ю. Шанов С.В. ПРИМЕНЕНИЕ БАЙЕСОВСКОГО КЛАССИФИКАТОРА ДЛЯ ОПРЕДЕЛЕНИЯ ТЕМАТИКИ ТЕКСТА. Моделирование, оптимизация и информационные технологии. 2018;6(1). Доступно по: https://moit.vivt.ru/wp-content/uploads/2018/01/ShanovSoavtori_1_1_18.pdf DOI:

559

Полный текст статьи в PDF