Извлечение морфологических признаков технических систем из русскоязычных патентов по деревьям зависимостей
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Извлечение морфологических признаков технических систем из русскоязычных патентов по деревьям зависимостей

idВасильев С.С., idКоробкин Д.М., Фоменков С.А. 

УДК 004.853
DOI: 10.26102/2310-6018/2022.39.4.006

  • Аннотация
  • Список литературы
  • Об авторах

В статье представлена методология извлечения морфологических признаков технических систем в виде компонентов устройства и связей между ними. Объектом анализа для извлечения данных выступает главный пункт формулы изобретения в текстах русскоязычных патентов. Информация о компонентах устройства является наиболее фундаментальной и важной и может использоваться во множестве задач анализа патентного массива, а поиск эффективных подходов по извлечению такой информации все еще продолжается. В настоящем исследовании областью применения указанных данных рассматривается направление автоматизированного изобретательства. Целью работы являлся анализ качества извлечения данных по деревьям зависимостей для русского языка. Деревья зависимостей являются результатом работы систем синтаксической разметки естественного языка. Для сравнения были выбраны следующие синтаксические анализаторы: UdPipe, Stanza, DeepPavlov и spaCy. Выходные данные представлены в виде семантических структур SAO (Subject-Action-Object). Дана оценка качества извлечения данных с помощью метрик точности (precision), полноты (recall) и F1-меры. Для этого вручную было размечено 20 патентных формул с 252 структурами SAO. При текущих методологических ограничениях из тестовой выборки в лучшем случае удалось извлечь 79 % связок SAO в терминах метрики recall при нестрогой оценке данных, т. е. без учета полноты именных групп субъекта и объекта. Значение F1-меры по инструментам несколько ниже и находится в пределах от 48 % до 66 % в зависимости от типа оценки. Сделаны общие выводы по текущему уровню работы синтаксических анализаторов в рамках исследуемой области применения. Материалы статьи представляют практическую ценность при проработке эффективных подходов извлечения структурированных данных из русскоязычного патентного массива.

Ключевые слова: патент, извлечение данных, компоненты устройств, деревья зависимостей, SAO

Для цитирования: Васильев С.С., Коробкин Д.М., Фоменков С.А. Извлечение морфологических признаков технических систем из русскоязычных патентов по деревьям зависимостей. Моделирование, оптимизация и информационные технологии. 2022;10(4). URL: https://moitvivt.ru/ru/journal/pdf?id=1246 DOI: 10.26102/2310-6018/2022.39.4.006

504

Полный текст статьи в PDF

Поступила в редакцию 20.10.2022

Поступила после рецензирования 15.11.2022

Принята к публикации 25.11.2022

Опубликована 31.12.2022