Применение машинного обучения для определения порядка прилагательных в английском языке

idТерехова А.Д., idТерехов Г.В., idСычев О.А.

УДК 004.891.2
DOI: 10.26102/2310-6018/2023.40.1.028

Аннотация
Список литературы
Об авторах

В статье рассматривается способ решения задачи упорядочивания прилагательных в предложении на английском языке путем определения их гиперонимов. Определение гиперонима можно свести к задаче классификации, поэтому в данной работе произведено сравнение наиболее популярных методов классификации в машинном обучении: метод поиска ближайших соседей, логистическая регрессия, классификатор дерева решений, метод опорных векторов и наивный байесовский метод. Модели были обучены на выборке, содержащей прилагательные и их гиперонимы. Для анализируемого прилагательного отбираются схожие уже классифицированные прилагательные из обучающей выборки и на основе этих данных определяется наиболее семантически подходящий гипероним. Информацию о схожести слов предлагается брать из готовых эмбеддингов GloVe. Используя технику gridsearch, были подобраны оптимальные значения гиперпараметров для метода поиска ближайших соседей K-Nearest Neighbors. С помощью метрик точности (precision), полноты (recall) и F1-меры было проанализировано качество классификации данных при использовании каждого из перечисленных выше методов. Так как готовых датасетов, состоящих из классифицированных прилагательных, на данный момент нет, то для измерений вручную было классифицировано 300 прилагательных.

1. Mitrovic A., Koedinger K.R., Martin B. A comparative analysis of cognitive tutoring and constraint-based modeling. Lecture Notes in Computer Science. 2003;2702:313–322. DOI: 10.1007/3-540-44963-9_42.

2. Углев В.А., Сычев О.А., Аникин А.В. Интеллектуальный анализ цифрового следа при оценке контрольно-измерительных материалов для поддержки принятия решений в образовательном процессе. Журнал Сибирского федерального университета. Техника и технологии. 2022;15(1):121–136. DOI: 10.17516/1999-494X-0378.

3. Malkani N. A Comprehensive guide on General English for competitive examinations. Agra, Oswal Publishers; 2020. 518 p.

4. Yogish D., Manjunath T. N., Hegadi S.R. Review on natural language processing trends and techniques using NLTK. Recent Trends in Image Processing and Pattern Recognition. 2018;1037:589–606. DOI: 10.1007/978-981-13-9187-3_53.

5. Bird S, Klein E, Loper E. Natural language processing with Python: analyzing text with the natural language toolkit. O’Reilly Media, Inc; 2009. 502 p.

6. Cheng X., Kong X., Liao L., Li B. A combined method for usage of NLP libraries towards analyzing software documents. Advanced Information Systems Engineering. CAiSE 2020. Lecture Notes in Computer Science. 2020;12127:515–529. DOI: 10.1007/978-3-030-49435-3_32.

7. Sarkar D. Text Analytics with Python: A Practitioner's Guide to Natural Language Processing. New York, Apress; 2019. 698 p.

8. Fellbaum C. WordNet: an Electronic Lexical Database. Cambridge, MIT Press; 1998. 422 p. DOI: 10.7551/mitpress/7287.001.0001.

9. Pennington J., Socher R., Manning C.D. Glove: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014:1532–1543. DOI: 10.3115/v1/D14-1162.

10. Daniel T.L., Chantal D.L. Discovering knowledge in data: an introduction to data mining. New Jersey, Wiley-interscience. John Wiley & Sons, Inc; 2005. 222 p.

11. Haneen A.A.A., Ahmad B.A.H. Effects of distance measure choice on K-nearest neighbor classifier performance: a review. Big Data. 2019:221–248

12. Li B. Importance weighted feature selection strategy for text classification. International Conference on Asian Language Processing (IALP). 2016:344–347.

13. Cristianini N., Shawe-Taylor J. An introduction to support vector machines: and other kernel-based learning methods. Cambridge, Cambridge University Press; 2000. 204 p. DOI: 10.1017/CBO9780511801389.

14. Shafieezadeh-Abadeh S., Esfahani P.M., Kuhn D., Distributionally robust logistic regression. Advances in Neural Information Processing Systems. 2015:1576–1584.

15. Champandard A.J. AI Game Development: Synthetic Creatures with Learning and Reactive Behaviors. San Francisco, New Riders Pub; 2003. 500 p.

Терехова Анастасия Дмитриевна

Email: nastyakr@list.ru

ORCID | РИНЦ |

Волгоградский государственный технический университет
Озон Технологии

Волгоград, Российская Федерация

Терехов Григорий Владимирович

Email: grvlter@gmail.com

Scopus | ORCID | РИНЦ |

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Сычев Олег Александрович
Кандидат технических наук, Доцент
Email: oasychev@gmail.com

Scopus | ORCID | РИНЦ |

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Ключевые слова: порядок прилагательных, обработка естественного языка, векторное представление слов, gloVe, методы классификации, гиперонимы

Для цитирования: Терехова А.Д., Терехов Г.В., Сычев О.А. Применение машинного обучения для определения порядка прилагательных в английском языке. Моделирование, оптимизация и информационные технологии. 2023;11(1). URL: https://moitvivt.ru/ru/journal/article?id=1301 DOI: 10.26102/2310-6018/2023.40.1.028

717

Полный текст статьи в PDF

Скачать JATS XML

Поступила в редакцию 11.01.2023

Поступила после рецензирования 09.03.2023

Принята к публикации 20.03.2023

Опубликована 31.03.2023