Извлечение морфологических признаков технических систем из русскоязычных патентов по деревьям зависимостей
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Извлечение морфологических признаков технических систем из русскоязычных патентов по деревьям зависимостей

idВасильев С.С., idКоробкин Д.М., Фоменков С.А. 

УДК 004.853
DOI: 10.26102/2310-6018/2022.39.4.006

  • Аннотация
  • Список литературы
  • Об авторах

В статье представлена методология извлечения морфологических признаков технических систем в виде компонентов устройства и связей между ними. Объектом анализа для извлечения данных выступает главный пункт формулы изобретения в текстах русскоязычных патентов. Информация о компонентах устройства является наиболее фундаментальной и важной и может использоваться во множестве задач анализа патентного массива, а поиск эффективных подходов по извлечению такой информации все еще продолжается. В настоящем исследовании областью применения указанных данных рассматривается направление автоматизированного изобретательства. Целью работы являлся анализ качества извлечения данных по деревьям зависимостей для русского языка. Деревья зависимостей являются результатом работы систем синтаксической разметки естественного языка. Для сравнения были выбраны следующие синтаксические анализаторы: UdPipe, Stanza, DeepPavlov и spaCy. Выходные данные представлены в виде семантических структур SAO (Subject-Action-Object). Дана оценка качества извлечения данных с помощью метрик точности (precision), полноты (recall) и F1-меры. Для этого вручную было размечено 20 патентных формул с 252 структурами SAO. При текущих методологических ограничениях из тестовой выборки в лучшем случае удалось извлечь 79 % связок SAO в терминах метрики recall при нестрогой оценке данных, т. е. без учета полноты именных групп субъекта и объекта. Значение F1-меры по инструментам несколько ниже и находится в пределах от 48 % до 66 % в зависимости от типа оценки. Сделаны общие выводы по текущему уровню работы синтаксических анализаторов в рамках исследуемой области применения. Материалы статьи представляют практическую ценность при проработке эффективных подходов извлечения структурированных данных из русскоязычного патентного массива.

1. Li X., Song H., Zhang X., Xu Q. Fine-grained Construction of Semantic Technology Network for Technology Evolution Analysis. Proc. of the 3rd International Conference on Computer Science and Application Engineering. 2019:1–7. DOI: 10.1145/3331453.3361638.

2. You H., Li M., Hipel K.W. et al. Development trend forecasting for coherent light generator technology based on patent citation network analysis. Scientometrics. 2017;111:297–315. DOI: 10.1007/s11192-017-2252-y.

3. Kim S., Yoon B. Patent infringement analysis using a text mining technique based on SAO structure. Computers in Industry. 2021;125:103379. DOI: 10.1016/j.compind.2020.103379.

4. Feng L., Niu Y., Wang J. Development of Morphology Analysis-Based Technology Roadmap Considering Layer Expansion Paths: Application of TRIZ and Text Mining. Applied Sciences. 2020;10(23):8498. DOI: 10.3390/app10238498.

5. Liu L., Li Y., Xiong Y., Cavallucci, D. A new function-based patent knowledge retrieval tool for conceptual design of innovative products. Computers in Industry. 2020;115:103154. DOI: 10.1016/j.compind.2019.103154.

6. Зарипова В.М., Петрова И.Ю., Цырульников Е.С. Классификация автоматизированных систем поддержки инновационных процессов на предприятии (Computer Aided Innovation – CAI). Прикаспийский журнал: управление и высокие технологии. 2012;1(17):26–35. Доступно по: https://elibrary.ru/download/elibrary_17708904_61173989.pdf (дата обращения: 20.10.2022).

7. Васильев С.С., Коробкин Д.М., Фоменков С.А. Метод формирования информационного обеспечения синтеза новых технических решений на основе анализа патентного массива. Часть 1. Вестник компьютерных и информационных технологий. 2021;18(11):3–12. DOI: 10.14489/vkit.2021.11.pp.003-012.

8. Boting G., Wenqing W. Open Relation Extraction in Patent Claims with a Hybrid Network. Wireless Communications and Mobile Computing. 2021;2021(1):1–7. DOI: 10.1155/2021/5547281.

9. Yang S.-Y., Soo V.-W. Extract conceptual graphs from plain texts in patent claims. Engineering Applications of Artificial Intelligence. 2012;25(4):874–887. DOI: 10.1016/j.engappai.2011.11.006

10. Lyashevskaya O.N., Shavrina T.O., Trofimov I.V., Vlasova N.A. Grameval 2020 Shared Task: Russian Full Morphology And Universal Dependencies Parsing. Proc. of the International Conference «Dialogue 2020». 2020:553–569. DOI: 10.28995/2075-7182-2020-19-553-569.

11. Ki W., Kim K. Generating Information Relation Matrix Using Semantic Patent Mining for Technology Planning: A Case of Nano-Sensor. IEEE Access. 2017;5:26783–26797. DOI: 10.1109/access.2017.2771371.

12. Lin W., Liu X., Xiao R. Research on Product Core Component Acquisition Based on Patent Semantic Network. Entropy (Basel). 2022;24(4):549. DOI: 10.3390/e24040549.

13. Honnibal M., Montani I. spaCy 2: Natural language understanding with Bloom embeddings, convolutional neural networks and incremental parsing. To appear. 2017.

14. Yindi S., Wei L., Guozhong C., Qingjin P., Jianjie G., Jiaming F. Effective design knowledge abstraction from Chinese patents based on a meta-model of the patent design knowledge graph. Computers in Industry. 2022;142:103749. DOI: 10.1016/j.compind.2022.103749.

15. Krestel R., Chikkamath R., Hewel C., Risch J. A survey on deep learning for patent analysis. World Patent Information. 2021;65:102035. DOI: 10.1016/j.wpi.2021.102035.

16. Chen L., Xu S., Zhu L., Zhang J., Lei X., Yang G. A deep learning based method for extracting semantic information from patent documents. Scientometrics. 2020;125:289–312. DOI: 10.1007/s11192-020-03634-y.

17. Xueqiang L., Xiangru L., Xindong Y., Zhian D., Junmei H. Relation Extraction Toward Patent Domain Based on Keyword Strategy and Attention+BiLSTM Model (Short Paper). Proc. of the 15th EAI International Conference, CollaborateCom. 2019. DOI: 10.1007/978-3-030-30146-0_28.

18. Kolesnikova V., Korobkin D., Fomenkov S., Rayushkin E., Glushkin V. The Analysis of Technology Development Trends Based on the Network Semantic Structure «Subject-Action-Object». Cyber-Physical Systems: Intelligent Models and Algorithms. Studies in Systems, Decision and Control. 2022;417:43–53. DOI: 10.1007/978-3-030-95116-0_4.

19. Straka M., Hajič J., Straková J. UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. Proc. of the Tenth International Conference on Language Resources and Evaluation (LREC'16). 2016:4290–4297. Доступно по: https://aclanthology.org/L16-1680.pdf (дата обращения: 20.10.2022).

20. Qi P., Zhang Y., Zhang Y., Bolton J., Manning C.D. Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. Association for Computational Linguistics (ACL) System Demonstrations. 2020. Доступно по: https://nlp.stanford.edu/pubs/qi2020stanza.pdf (дата обращения: 20.10.2022).

21. Burtsev M. et al. DeepPavlov: Open-Source Library for Dialogue Systems. Proc. of ACL 2018, System Demonstrations. 2018:122–127. DOI: 10.18653/v1/P18-4021.

Васильев Сергей Сергеевич

ORCID |

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Коробкин Дмитрий Михайлович
кандидат технических наук, доцент

ORCID |

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Фоменков Сергей Алексеевич
доктор технических наук, профессор

Волгоградский государственный технический университет

Волгоград, Российская Федерация

Ключевые слова: патент, извлечение данных, компоненты устройств, деревья зависимостей, SAO

Для цитирования: Васильев С.С., Коробкин Д.М., Фоменков С.А. Извлечение морфологических признаков технических систем из русскоязычных патентов по деревьям зависимостей. Моделирование, оптимизация и информационные технологии. 2022;10(4). URL: https://moitvivt.ru/ru/journal/pdf?id=1246 DOI: 10.26102/2310-6018/2022.39.4.006

424

Полный текст статьи в PDF

Поступила в редакцию 20.10.2022

Поступила после рецензирования 15.11.2022

Принята к публикации 25.11.2022

Опубликована 31.12.2022