Тематический анализ текстовой информации на основе частотных характеристик

idПреображенский А.П., Меняйлов Д.В., Чопорова Е.И.

УДК УДК 681.3
DOI: 10.26102/2310-6018/2021.32.1.025

Аннотация
Список литературы
Об авторах

В настоящее время происходит активное развитие методов, связанных с исследованием текстовых массивов. При этом подобные подходы нацелены либо на то, чтобы измерять пространственные характеристики в текстовых массивах, таких как длины строк, размеры шрифтов и т. п., либо на рассмотрение общелингвистических задач, в которых изучаются смыслонесущие единицы, такие как предложения, фразы и др. Во втором классе задач перспективным можно считать использование частотного анализа. В работе дан анализ подходов, которые могут при этом использоваться. Авторами составлен алгоритм обработки текста на естественном языке. Созданный в работе программным образом алгоритм реализуется с помощью Python, Jupyter Notebook, wordcloud, NLTK. При обработке текстовый массив разбивается на слова, после чего происходит формирование списка токенов. Даны рекомендации по удалению союзов, предлогов и других частей речи, чтобы осуществлять полноценный анализ тематики. Показаны основные этапы алгоритма частотного анализа текста, которые заключаются в том, что выгружаются данные, производится первичная обработка текстовых массивов, осуществляется процесс замены слов, проводится оценка статистических данных, убираются лишние слова, осуществляется визуальное представление. В статье продемонстрирован пример фрагментов программного кода, описывающих работу ключевых этапов алгоритма.

1. Свиридов В.И., Чопорова Е.И., Свиридова Е.В. Лингвистическое обеспечение автоматизированных систем управления и взаимодействие пользователя с компьютером Моделирование, оптимизация и информационные технологии. 2019;1(24):430-438.

2. Цепковская Т.А., Чопорова Е.И. Проблемы построения автоматизированных обучающих систем Моделирование, оптимизация и информационные технологии. 2017;1(16):20.

3. Осочкин А.А., Фомин В.В., Флегонтов А.В. Метод частотно-морфологической классификации текстов. Программные продукты и системы. 2017;3(30):478–486.

4. Смирнова И.Г., Чопорова Е.И., Серостанова Н.Н. Особенности разработки профильных учебных пособий по иностранному языку с учетом формирования информационно-коммуникативной компетенции обучающихся. Вестник Воронежского института высоких технологий. 2017;3(22):64-68.

5. Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов. Сборник материалов 61 научно-технической конференции профессорско-преподавательского состава, СПб ГУТ.2009:42–43.

6. Третьяков Ф.И., Серебряная Л.В. Методы автоматического построения рефератов на основе частотного анализа текстов. Доклады Белорусского государственного университета информатики и радиоэлектроники. 2014;3(81):40–44.

7. Шумилина Т.В. Применение частотного анализа текстов СМИ для оптимизации процесса коммуникации. Вестник Московского Университета. Сер. 10. Журналистика. 2017;(2):67–79.

8. Тхан Б. Х., Лупин С.А., Тайк А. М., Тун Х. Статическая балансировка нагрузки в параллельной реализации алгоритма частотного анализа текстовой информации. International Journal of Open Information Technologies. 2016;4(11):27-33.

9. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М: Азбуковник, 2009.

Преображенский Андрей Петрович
дтн, доцент

WoS | Scopus | ORCID | РИНЦ |

Воронежский институт высоких технологий

Воронеж, Россия

Меняйлов Дмитрий Владимирович

Воронежский институт высоких технологий

Воронеж, Россия

Чопорова Екатерина Ивановна
кпн, доцент

РИНЦ |

Воронежский институт высоких технологий

Воронеж, Россия

Ключевые слова: текстовая информация, модель, частотный анализ, программа, слово, язык

Для цитирования: Преображенский А.П., Меняйлов Д.В., Чопорова Е.И. Тематический анализ текстовой информации на основе частотных характеристик. Моделирование, оптимизация и информационные технологии. 2021;9(1). URL: https://moitvivt.ru/ru/journal/article?id=944 DOI: 10.26102/2310-6018/2021.32.1.025

1800

Полный текст статьи в PDF

Скачать JATS XML

Опубликована 31.03.2021