References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2023.40.1.028

1301

Применение машинного обучения для определения порядка прилагательных в английском языке

Application of machine learning for adjective ordering in English sentences

0000-0001-7667-7059

Терехова

Анастасия Дмитриевна

Terekhova

Anastasia Dmitrievna

nastyakr@list.ru aff-1

0000-0002-0289-1834

Терехов

Григорий Владимирович

Terekhov

Grigory Vladimirovich

grvlter@gmail.com aff-2

0000-0002-7296-2538

Сычев

Олег Александрович

Sychev

Oleg Aleksandrovich

oasychev@gmail.com aff-3

Волгоградский государственный технический университет Озон Технологии Volgograd State Technical University OZON Tech

Волгоградский государственный технический университет Volgograd State Technical University

01 01 2026

1 1

10.26102/2310-6018/2023.40.1.028

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

В статье рассматривается способ решения задачи упорядочивания прилагательных в предложении на английском языке путем определения их гиперонимов. Определение гиперонима можно свести к задаче классификации, поэтому в данной работе произведено сравнение наиболее популярных методов классификации в машинном обучении: метод поиска ближайших соседей, логистическая регрессия, классификатор дерева решений, метод опорных векторов и наивный байесовский метод. Модели были обучены на выборке, содержащей прилагательные и их гиперонимы. Для анализируемого прилагательного отбираются схожие уже классифицированные прилагательные из обучающей выборки и на основе этих данных определяется наиболее семантически подходящий гипероним. Информацию о схожести слов предлагается брать из готовых эмбеддингов GloVe. Используя технику gridsearch, были подобраны оптимальные значения гиперпараметров для метода поиска ближайших соседей K-Nearest Neighbors. С помощью метрик точности (precision), полноты (recall) и F1-меры было проанализировано качество классификации данных при использовании каждого из перечисленных выше методов. Так как готовых датасетов, состоящих из классифицированных прилагательных, на данный момент нет, то для измерений вручную было классифицировано 300 прилагательных.

The article presents a methodology for solving the adjective ordering problem in English sentences by determining their hypernyms. The determining of a hypernym can be represented as a classification task; therefore, the most popular machine-learning classification methods were compared, they include the following: nearest neighbors method, logistic regression, decision classifier, support vector machine and naive Bayes method. The models were trained on a sample that contained adjectives and their hypernyms. For each adjective, similar adjectives from the training sample were selected; the most semantically appropriate hypernym was determined based on them. The use of information about word similarity from GloVe embeddings is proposed. The optimal values of hyperparameters for the K-Nearest Neighbors method were selected by means of the gridsearch technique. The quality of data classification was evaluated applying the metrics of precision, recall, and F1-measure for each of the methods. Since there were no ready-made datasets of classified adjectives, 300 adjectives were classified manually to create necessary samples.

порядок прилагательных обработка естественного языка векторное представление слов GloVe методы классификации гиперонимы

adjective ordering natural language processing word vector representation GloVe classification methods hypernyms

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Mitrovic A., Koedinger K.R., Martin B. A comparative analysis of cognitive tutoring and constraint-based modeling. Lecture Notes in Computer Science. 2003;2702:313–322. DOI: 10.1007/3-540-44963-9_42.

Углев В.А., Сычев О.А., Аникин А.В. Интеллектуальный анализ цифрового следа при оценке контрольно-измерительных материалов для поддержки принятия решений в образовательном процессе. Журнал Сибирского федерального университета. Техника и технологии. 2022;15(1):121–136. DOI: 10.17516/1999-494X-0378.

Malkani N. A Comprehensive guide on General English for competitive examinations. Agra, Oswal Publishers; 2020. 518 p.

Yogish D., Manjunath T. N., Hegadi S.R. Review on natural language processing trends and techniques using NLTK. Recent Trends in Image Processing and Pattern Recognition. 2018;1037:589–606. DOI: 10.1007/978-981-13-9187-3_53.

Bird S, Klein E, Loper E. Natural language processing with Python: analyzing text with the natural language toolkit. O’Reilly Media, Inc; 2009. 502 p.

Cheng X., Kong X., Liao L., Li B. A combined method for usage of NLP libraries towards analyzing software documents. Advanced Information Systems Engineering. CAiSE 2020. Lecture Notes in Computer Science. 2020;12127:515–529. DOI: 10.1007/978-3-030-49435-3_32.

Sarkar D. Text Analytics with Python: A Practitioner's Guide to Natural Language Processing. New York, Apress; 2019. 698 p.

Fellbaum C. WordNet: an Electronic Lexical Database. Cambridge, MIT Press; 1998. 422 p. DOI: 10.7551/mitpress/7287.001.0001.

Pennington J., Socher R., Manning C.D. Glove: Global vectors for word representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014:1532–1543. DOI: 10.3115/v1/D14-1162.

Daniel T.L., Chantal D.L. Discovering knowledge in data: an introduction to data mining. New Jersey, Wiley-interscience. John Wiley & Sons, Inc; 2005. 222 p.

Haneen A.A.A., Ahmad B.A.H. Effects of distance measure choice on K-nearest neighbor classifier performance: a review. Big Data. 2019:221–248

Li B. Importance weighted feature selection strategy for text classification. International Conference on Asian Language Processing (IALP). 2016:344–347.

Cristianini N., Shawe-Taylor J. An introduction to support vector machines: and other kernel-based learning methods. Cambridge, Cambridge University Press; 2000. 204 p. DOI: 10.1017/CBO9780511801389.

Shafieezadeh-Abadeh S., Esfahani P.M., Kuhn D., Distributionally robust logistic regression. Advances in Neural Information Processing Systems. 2015:1576–1584.

Champandard A.J. AI Game Development: Synthetic Creatures with Learning and Reactive Behaviors. San Francisco, New Riders Pub; 2003. 500 p.

The authors declare that there are no conflicts of interest present.