Ключевые слова: эмоциональная окраска текста, рекуррентная нейросеть, глубокое обучение, графовые сверточные сети, риск анализ
Риск-анализ контента социальных сетей на основе нейросетевой классификации эмоциональной окраски текста сообщений
УДК 004.056; 004.032.26
DOI: 10.26102/2310-6018/2021.35.4.034
Одним из перспективных направлений Data Science в рамках практико-ориентированных подходов к анализу социальных сетей (Social network analysis), с точки зрения формализации мнений пользователей сети (агентов), является класс методов анализа контента, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов по отношению к объектам, речь о которых идет в тексте. С помощью такого анализа можно изучить массив сообщений и иных данных и определить, как они эмоционально окрашены – позитивно, негативно или нейтрально. В статье предложен сравнительный анализ двух подходов к исследованию возможностей классификации текстовых последовательностей в зависимости от их эмоциональной окраски: на основе рекуррентной нейронной сети (RNN) и с использованием графовых сверточных сетей (GCN). Первый подход реализован на основе глубокого обучения c использованием инструмента Deep Leraning Designer (MathWorks© MATLAB R2021b). Второй подход основан на использовании сверточных графовых нейросетей для классификации текста. Реализация GCN осуществлена на языке Python с использованием соответствующего набора библиотек для анализа данных. Кроме этого, в работе показано, что полученная модель может использоваться при оценке рисков, где получаемое значение используется в качестве корректирующего коэффициента при расчетах риска вовлеченности пользователя. По результатам сравнения двух подходов показано, что при использовании GCN снижается процент обучающих данных, что свидетельствует о чувствительности метода к меньшему количеству обучающих данных, а также повышении точности модели при сопоставимых настраиваемых параметрах обучения.
1. Aggarwal, C. C., Zhai, C. X. A survey of text classification algorithms. In Mining text data. Springer. In Mining Text Data. 2012;163–222.
2. Остапенко А.Г., Чапурин Е.Ю., Калашников А.О., Остапенко О.А., Остапенко Г.А. Социальные сети и риск-мониторинг. Под ред. член-корр. РАН Д.А. Новикова. М.: Горячая линия-Телеком; 2019;(4).
3. Hochreiter, S., and Schmidhuber, J. Long short-term memory. Neural computation. 1997. 9(8):1735–1780.
4. Battaglia, P. W.; Hamrick, J. B.; Bapst, V.; Sanchez-Gonzalez, A.; Zambaldi, V.; Malinowski, M.; Tacchetti, A.; Raposo, D.; Santoro, A.; Faulkner, R.; et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint. 2018;(1).
5. Dataset sentiment analysis with tweets. Доступно по: https://www.kaggle.com/vandalko/keras-lstm-twitter-sentiment-analysis/data
6. Twitter API. Доступно по: https://developer.twitter.com/en/products/twitter-api
7. Deep learning for humans. Доступно по: https://keras.io/
8. Yao, Liang, Chengsheng Mao, and Yuan Luo. Graph convolutional networks for text classification. Proceedings of the AAAI Conference on Artificial Intelligence. 2019;33:7370-7376.
9. Rafael E. Banchs. Text Mining with MATLAB. Springer International Publishing; 2012. 468 с.
10. Accuracy and Loss. Доступно по: https://docs.paperspace.com/machine-learning/wiki/accuracy-and-loss
11. Чапурин Е.Ю. Инструментарий для исследования распределенных компьютерных систем в условиях распространения вирусного контента: тематическое моделирование вредоносов. Информация и безопасность. 2020;23(2):291-304.
12. Sentiment Analysis template. Доступно по: https://github.com/floydhub/sentiment-analysis-template
13. Белоножкин В.И., Дергачев Ю.А., Турчин А.С. Методика оценки и регулирования рисков при функционировании программных средств, формирующих технический канал утечки информации за счет программно-управляемых побочных электромагнитных излучений. Информация и безопасность.2020;23(1):51-66.
14. Ружицкий Е., Шварцкопф Е.А., Манмарева В.В. Риск-ранжирование общедоступных интернет-ресурсов на основе среднесуточных измерений информационных процессов восприятия их пользователями вбрасываемых контентов. Информация и безопасность. 2020;23(1):97-106.
15. Ермаков С.А., Каценко Я.М., Болгов А.А. Оценка и регулирование рисков нарушения информационной безопасности телекоммуникационных сетей связи и управления промышленного интернета вещей. Информация и безопасность. 2020;23(1):107-114.
16. Остапенко А.Г. «Инфодемия» и социальные сети: индуцированные риски и шансы. Информация и безопасность. 2020;23(2):235-244.
17. Остапенко А.Г. «Инфодемия» и социальные сети: модели эпидемического процесса. Информация и безопасность. 2020;23(2):285-290.
18. Остапенко А.Г., Соколова Е.С., Пастернак Ю.Г. Формализация описания моновирусных эпидемических процессов в сетях. Информация и безопасность. 2020;23(4):497-510.
19. Штефанович Ю., Шварцкопф Е.А., Манмарева В.В. Векторная оценка опасности распространения вирусных контентов на основе среднесуточной реактивности пользователей интернет-ресурсов. Информация и безопасность. 2020;23(1):79-86.
20. Чапурин Е.Ю, Гуслянников А.Е., Паринова Л.В. Программно-технический комплекс для риск-анализа десктруктивных контентов социальных сетей: структура, внешний вид и базы данных. Информация и безопасность. 2020;23(3):389-398.
21. Чапурин Е.Ю, Гуслянников А.Е., Паринова Л.В. Программно-технический комплекс риск-анализа деструктивных контентов социальных сетей: основные компоненты и уязвимости. Информация и безопасность.2020;23(3):409-418.
22. Остапенко А.Г., Остапенко А.А., Лантюхов Н.М. К вопросу о трендах и инструментарии социо-информационного глобального противоборства. Информация и безопасность. 2020;23(4):519-524
23. Москалева Е.А., Баранников Н.И., Каребин Д.С. Картографическое исследование деятельности киберпреступных группировок в контексте повышения эффективности мер защиты. Информация и безопасность. 2020;23(3):431-446.
24. Сердечный А.Л., Марков Р.В., Герасимов И.В. Картографический подход исследования процессов распространения деструктивного контента в сообществах единой тематики социальной сети «ВКонтакте». Информация и безопасность. 2020;23(2):203-214.
25. Чапурин Е.Ю., Гуслянников А.Е., Разинкин К.А Деструктивность контента, его классификаторы и сканеры для риск-анализа социальных сетей. Информация и безопасность. 2020;23(3):375-378.
26. Ружицкий Е., Шварцкопф Е.А., Манмарева В.В. Тематическая классификация интернет-ресурсов на основе векторной иллюстрации по группам потенциально опасных контентов. Информация и безопасность. 2020;23(1):123-132.
27. Гречишкин А.В., Рахманин Д.Н., Свиридов А.В. Модемы телекоммуникационных сетей связи и управления: защита от атак внедрения вредоносного кода на основе экспертной оценки средств защиты модема и регулирования рисков. Информация и безопасность. 2020;23(2):305-314.
Ключевые слова: эмоциональная окраска текста, рекуррентная нейросеть, глубокое обучение, графовые сверточные сети, риск анализ
Для цитирования: Разинкин К.А., Соколова Е.С., Савищенко Д.Н., Чапурин Е.Ю. Риск-анализ контента социальных сетей на основе нейросетевой классификации эмоциональной окраски текста сообщений. Моделирование, оптимизация и информационные технологии. 2021;9(4). URL: https://moitvivt.ru/ru/journal/pdf?id=1105 DOI: 10.26102/2310-6018/2021.35.4.034
Поступила в редакцию 05.12.2021
Поступила после рецензирования 25.12.2021
Принята к публикации 30.12.2021
Опубликована 31.12.2021