Ключевые слова: социальная сеть, данные, показатели социальных сетей, машинное обучение, случайный лес
Исследование задачи классификации публикаций социальных сетей на предмет выявления положительного отношения
УДК 004.048
DOI: 10.26102/2310-6018/2020.30.3.014
В статье рассматривается актуальность решения класса задач, связанных с анализом публикационной активности пользователей социальных сетей. Приводится анализ существующих подходов к выявлению общественного мнения к публикациям в социальных сетях, в котором обосновывается превалирование методов, основанных на анализе тональности текстов. Приводятся недостатки указанных методов, снижающие эффективность процесса оценивания общественного мнения относительно публикационной активности пользователей социальных сетей. Выдвигается предположение о возможности использования метаданных сообщений без необходимости проведения процедуры анализа тональности текста для устранения указанной проблемы. Определяются первичные и производные показатели сообщений в социальных сетях, получаемые из совокупности метаданных. Рассматриваются подходы к решению задачи бинарной классификации на основе указанных показателей, как на базе статистических методов, так и с использованием методов машинного обучения. Делается предположение о приемлемой точности класса моделей на основе машинного обучения, обеспечивающих решение указанной задачи. Предлагается модель машинного обучения на основе случайного леса для решения задачи классификации положительного отношения к публикациям в социальных сетях, основанная на анализе первичных и производных показателей сообщений.
1. Франц В.А. Управление общественным мнением: учеб. Пособие. М-во образования и науки Рос. Федерации, Урал. федер. ун-т. Екатеринбург: Изд-во Урал. ун-та. 2016:135.
2. Беликова Г.И., Бровкина Е.А., Вагер Б.Г., Витковская Л.В., Матвеев Ю.Л. Численные методы. Учебное пособие. СПб., РГГМУ. 2019:174.
3. Лоусон Ч., Хенсон Р., Численное решение задач метода наименьших квадратов; Пер. с англ. М.: Наука. Гл. ред. физ.-мат. лит. 1986:232.
4. Фадеев М.А., Марков К.А. Численные методы: учебное пособие. ННГУ им. Н.И. Лобачевского. 2010.
5. Самарский А.А., Гулин А.В. Численные методы: учебное пособие для вузов. М.: Наука. Гл. ред. физ-мат. лит. 1989:432.
6. Davis J., Goadrich M. (2006). The Relationship Between Precision-Recall and ROC Curves. Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh, PA.
7. Будыльский Д.В. Автоматизация мониторинга общественного мнения на основе интеллектуального анализа сообщений в социальных сетях: дис. … канд. техн. наук. Брянский гос. техн. университет, Брянск. 2015.
8. Гуськов С.Ю., Лёвин В.В. Интервальные доверительные оценки для показателей качества бинарных классификаторов ROC-кривых, AUC для случая малых выборок. Инженерный журнал: наука и инновации. 2015;3. URL: http://engjournal.ru/catalog/mesc/idme/1376.html.
9. Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python. Москва, 2016-2017.
Ключевые слова: социальная сеть, данные, показатели социальных сетей, машинное обучение, случайный лес
Для цитирования: Сазонов М.А., Шекшуев С.В. Исследование задачи классификации публикаций социальных сетей на предмет выявления положительного отношения. Моделирование, оптимизация и информационные технологии. 2020;8(3). URL: https://moit.vivt.ru/wp-content/uploads/2020/08/SazonovShekshuev_3_20_1.pdf DOI: 10.26102/2310-6018/2020.30.3.014
Опубликована 30.09.2020