Ключевые слова: анализ тональности текста, компьютерная лингвистика, машинное обучение, признаки классификации, гибридный подход, метод опорных векторов, случайный лес
Модели и методы анализа тональности в текстах на башкирском языке
УДК 004.048
DOI: 10.26102/2310-6018/2020.30.3.016
Исследования в области автоматического извлечения мнений по-прежнему остаются актуальными. В статье представлено формальное описание термина мнение, постановки задач в зависимости от определяемых свойств мнения. Описаны проблемы решения задачи анализа тональности текста, подходы к ее решению и готовые программные реализации. Приведены имеющиеся корпусы текстов на башкирском языке, а также постановка задачи анализа тональности в текстах на башкирском языке. Рассмотрена методика ее решения, включающая алгоритм разметки текста, методы предобработки, выбора признаков классификации, методы классификации, приведены результаты эксперимента с целью выбора наиболее эффективного метода классификации для программной реализации с учетом метрик качеств. Полученные в работе результаты и разработанное программное решение на основе SVM со стохастическим градиентным спуском, продемонстрировавшим наиболее высокие показатели в критериях точности, полноты и F-меры, могут быть использованы для оценки тональности текстов новостных сайтов на башкирском языке.
1. Ананьева М. И., Кобозева М. В., Соловьев Ф. Н., Поляков И. В., Чеповский А. М. О проблеме выявления экстремистской направленности в текстах. Вестник Новосибирского государственного университета. Серия: Информационные технологии. 2016;14(4):5–13.
2. Башкирский поэтический корпус. Доступно по адресу: http://webcorpora.net/bashcorpus/search/?interface_language=ru (дата обращения 30.04.2020).
3. Бодрунова С.С. Кросс-культурный тональный анализ пользовательских текстов в Твиттере. Вестник Московского университета Серия 10. Журналистика. 2018;6:191-212.
4. Воронина И. Е., Гончаров В. А. Анализ эмоциональной окраски сообщений в социальных сетях (на примере сети «вконтакте»). Вестник ВГУ. Серия :Системный анализ и информационные технологии. 2015;4:151-158.
5. Горбушин Д. А., Гринченков Д. В., Мохов В. А., Нгуен Фук Хау Системный анализ подходов к решению задачи идентификации тональности текста. Известия вузов. Северо-кавказский регион. Технические науки. 2016;2:36-41.
6. Гаршина В. В., Калабухов К. С., Степанцов В. А., Смотров С. В. Разработка системы анализа тональности текстовой информации. Вестник ВГУ, Серия: Системный анализ и информационные технологии. 2017;3:185-194.
7. Ермаков А. Е., Киселев С. Л. Лингвистическая модель для компьютерного анализа тональности публикаций СМИ. Компьютерная лингвистика и интеллектуальные технологии:труды Международной конференции Диалог’2005. Москва:Наука, 2005. Доступно по адресу: http://www.dialog21.ru/media/2365/ermakov-kiselev.pdf (дата обращения 30.04.2020).
8. Клековкина М. В., Котельников Е. В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики. Электронные библиотеки:перспективные методы и технологии, электронные коллекции (RCDL-2012):труды 14-й Всероссийской научной конференции (Переславль-Залесский, Россия, 15-18 октября 2012 г.). 2012:81-86. Доступно по адресу: http://ceur-ws.org/Vol-934/paper15.pdf (дата обращения 30.04.2020).
9. Колмогорова А. В., Калинин А. А., Маликова А. В. Лингвистические принципы и методы компьютерной лингвистики для решения задач сентимент-анализа русскоязычных текстов. Актуальные проблемы филологии и педагогической лингвистики. 2018;1(29):139-148.
10. Котельников, Е.В. Комбинированный метод автоматического определения тональности текста. Программные продукты и системы. 2012;3:189-195.
11. Краснов Ф. В. Анализ тональности текста научно-практических статей по нефтегазовой тематике с помощью искусственных нейронных сетей. Вестник Евразийской науки. 2018;3(10). Доступно по адресу: https://esj.today/PDF/43ITVN318.pdf (дата обращения 30.04.2020).
12. Лукашевич Н. В. Автоматический анализ тональности текстов по отношению к заданному объекту и его характеристикам. Russian Digital Libraries Journal. 2015;18b(3-4):88-119.
13. Лукашевич Н. В., Четверкин И. И. Комбинирование тезаурусных и корпусных знаний для извлечения оценочных слов. Системы и средства информатики. 2015;25(1):20–33.
14. Меньшиков И. Л., Кудрявцев А. Г. Обзор систем анализа тональности текста на русском языке. Молодой ученый. 2012;12(47):140-143. Доступно по адресу: https://moluch.ru/archive/47/5951/ (дата обращения 30.04.2020).
15. Минина М. А. Психолингвистический анализ семантики оценки (на материале глаголов движения):автореферат дис. ... кандидата филологических наук:10.02.19. Москва, 1995:22.
16. Официальный сайт компании Ай-Теко. Доступно по адресу: https://www.iteco.ru/solutions/business_intelligence_products/analiz_tonalnosti_teksta/(дата обращения 30.04.2020).
17. Пазельская А. Г., Соловьев А. Н. Метод анализа эмоций в текстах на русском языке. Компьютерная лингвистика и интеллектуальные технологии:материалы ежегодной Международной конференции «Диалог» (Бекасово, 25–29 мая 2011 г.). М.: Изд-во РГГУ. 2011;10 (17):510-552.
18. Посевкин Р.В. Автоматизация сентимент-анализа текста. Междисциплинарный диалог: современные тенденции в гуманитарных, естественных и технических науках:сборник трудов IV Всероссийской научно-практической конференции преподавателей, ученых, специалистов и аспирантов. Издательство: Общество с ограниченной ответственностью "Полиграф-мастер" (Челябинск). 2015:242-244.
19. Романов А. С., Васильева М. И., Куртукова А.В., Мещеряков Р. В. Анализ тональности текста с использованием методов машинного обучения. Доступно по адресу:http://ceur-ws.org/Vol-2233/Paper_8.pdf (дата обращения 30.04.2020).
20. Сарбасова А.Н. Исследование методов сентимент-анализа русскоязычных текстов// Молодой ученый. 2015;8(88):143-146. Доступно по адресу: https://moluch.ru/archive/88/17413/. (дата обращения 30.04.2020)
21. Сиразитдинов З. А., Полянин А.И., Ибрагимова А. Д., Ишмухаметова А.Ш. Корпусы башкирского языка: принципы разработки. Проблемы востоковедения. 2013;4 (62):65-72.
22. Толкунов А. А. Модель оперативной аналитической обработки текстовых комментариев к законопроектам: автореферат дис. ... кандидата технических наук: 05.13.17. Орел:Академия ФСО, 2014:24.
23. Тутубалина Е.В., Иванов В. В., Загулова М., Мингазов Н., Алимова И., Малых В. Тестирование методов анализа тональности текста, основанных на словарях. Электронные библиотеки. 2015;18(3-4):138-162.
24. Усталов Д. В. Извлечение терминов из русскоязычных текстов при помощи графовых моделей. Доступно по адресу:http://koost.eveel.ru/ science/ CSEDays2012.pdf. (дата обращения 30.04.2020).
25. Устный корпус башкирского языка. Доступно по адресу: https://linghub.ru/oral_bashkir_corpus/ (дата обращения 30.04.2020).
26. Чиркин Е. С., Лопатин Д. В. Подходы к нечеткому поиску нежелательного контента на веб-странице. Вестник Тамбовского университета. Серия Естественные и технические науки. Тамбов. 2016;21(6):2358-2365.
27. Abbasi M. M., Beltiukov A. P. Анализ эмоций из текста на русском языке с использованием синтаксических методов. Information Technology and Systems:7th International Science Conference. At Khanty-Mansiysk. Russian Federation. 2019. Доступно по адресу: https://www.researchgate.net/publication/333489703Analiz_em ocijiz_teksta_na_russkom_azyke_s_ispolzovaniem_sintaksiceskih_metodov (дата обращения 30.04.2020).
28. Yan G. et al. A bilingual approach for conducting Chinese and English social media sentiment analysis. Computer Networks. 2014;75(PB):491-503.
29. Kadam S.A., Joglekar S.T. Sentiment Analysis:An Overview. International Journal of Research in Engineering & Advanced Technology. 2013;1(4).
30. Kennedy A., Inkpen D. Sentiment classification of movie reviews using contextual valence shifters. Computational Intelligence. 2006;22:110-125.
31. Liu B. Sentiment Analysis and Opinion Mining. Synthesis Lectures on Human Language Technologies #16. 2012;XIV:165.
32. Moilanen K., Pulman S., Zhang Y. Packed Feelings and Ordered Sentiments:Sentiment Parsing with Quasi-compositional Polarity Sequencing and Compression. Computational Approaches to Subjectivity and Sentiment Analysis (WASSA 2010):proceedings of the 1st Workshop at the 19th European Conference on Artificial Intelligence (ECAI 2010).2010:36-43.
33. Opinion lexicon English Доступно по адресу: https://github.com/jeffreybreen/twittersentiment-analysis-tutorial-201107/tree/master/data/opinion-lexicon-English (дата обращения 30.04.2020).
34. Potapova R., Komalova L. Multimodal perception of aggressive behavior. Lecture Notes in Computer Science. 2016;9811:499-506.
35. Wiebe J.M., Wilson, T., Cardie, C. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation. 2005;39 (2-3):165-210.
Ключевые слова: анализ тональности текста, компьютерная лингвистика, машинное обучение, признаки классификации, гибридный подход, метод опорных векторов, случайный лес
Для цитирования: Сулейманов А.К., Шарипова М.А., Сметанина О.Н., Сазонова Е.Ю., Миронов К.В. Модели и методы анализа тональности в текстах на башкирском языке. Моделирование, оптимизация и информационные технологии. 2020;8(3). URL: https://moit.vivt.ru/wp-content/uploads/2020/08/SuleimanovSoavtors_3_20_1.pdf DOI: 10.26102/2310-6018/2020.30.3.016
Опубликована 30.09.2020