Ключевые слова: текстовая информация, модель, частотный анализ, программа, слово, язык
Тематический анализ текстовой информации на основе частотных характеристик
УДК УДК 681.3
DOI: 10.26102/2310-6018/2021.32.1.025
В настоящее время происходит активное развитие методов, связанных с исследованием текстовых массивов. При этом подобные подходы нацелены либо на то, чтобы измерять пространственные характеристики в текстовых массивах, таких как длины строк, размеры шрифтов и т. п., либо на рассмотрение общелингвистических задач, в которых изучаются смыслонесущие единицы, такие как предложения, фразы и др. Во втором классе задач перспективным можно считать использование частотного анализа. В работе дан анализ подходов, которые могут при этом использоваться. Авторами составлен алгоритм обработки текста на естественном языке. Созданный в работе программным образом алгоритм реализуется с помощью Python, Jupyter Notebook, wordcloud, NLTK. При обработке текстовый массив разбивается на слова, после чего происходит формирование списка токенов. Даны рекомендации по удалению союзов, предлогов и других частей речи, чтобы осуществлять полноценный анализ тематики. Показаны основные этапы алгоритма частотного анализа текста, которые заключаются в том, что выгружаются данные, производится первичная обработка текстовых массивов, осуществляется процесс замены слов, проводится оценка статистических данных, убираются лишние слова, осуществляется визуальное представление. В статье продемонстрирован пример фрагментов программного кода, описывающих работу ключевых этапов алгоритма.
1. Свиридов В.И., Чопорова Е.И., Свиридова Е.В. Лингвистическое обеспечение автоматизированных систем управления и взаимодействие пользователя с компьютером Моделирование, оптимизация и информационные технологии. 2019;1(24):430-438.
2. Цепковская Т.А., Чопорова Е.И. Проблемы построения автоматизированных обучающих систем Моделирование, оптимизация и информационные технологии. 2017;1(16):20.
3. Осочкин А.А., Фомин В.В., Флегонтов А.В. Метод частотно-морфологической классификации текстов. Программные продукты и системы. 2017;3(30):478–486.
4. Смирнова И.Г., Чопорова Е.И., Серостанова Н.Н. Особенности разработки профильных учебных пособий по иностранному языку с учетом формирования информационно-коммуникативной компетенции обучающихся. Вестник Воронежского института высоких технологий. 2017;3(22):64-68.
5. Шеменков П.С. Нейросетевой метод извлечения знаний на основе совместной встречаемости ключевых термов. Сборник материалов 61 научно-технической конференции профессорско-преподавательского состава, СПб ГУТ.2009:42–43.
6. Третьяков Ф.И., Серебряная Л.В. Методы автоматического построения рефератов на основе частотного анализа текстов. Доклады Белорусского государственного университета информатики и радиоэлектроники. 2014;3(81):40–44.
7. Шумилина Т.В. Применение частотного анализа текстов СМИ для оптимизации процесса коммуникации. Вестник Московского Университета. Сер. 10. Журналистика. 2017;(2):67–79.
8. Тхан Б. Х., Лупин С.А., Тайк А. М., Тун Х. Статическая балансировка нагрузки в параллельной реализации алгоритма частотного анализа текстовой информации. International Journal of Open Information Technologies. 2016;4(11):27-33.
9. Ляшевская О. Н., Шаров С. А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М: Азбуковник, 2009.
Ключевые слова: текстовая информация, модель, частотный анализ, программа, слово, язык
Для цитирования: Преображенский А.П., Меняйлов Д.В., Чопорова Е.И. Тематический анализ текстовой информации на основе частотных характеристик. Моделирование, оптимизация и информационные технологии. 2021;9(1). URL: https://moitvivt.ru/ru/journal/pdf?id=944 DOI: 10.26102/2310-6018/2021.32.1.025
Опубликована 31.03.2021