Ключевые слова: патенты, физико-технические журналы, парсинг, масштабируемость, отказоустойчивость
Концепция и архитектура парсинга и хранения единой базы патентов и научных журнальных публикаций
УДК 004.853
DOI: 10.26102/2310-6018/2024.47.4.024
Существующие на текущий момент методы автоматизированного сбора данных, хотя и облегчают данный процесс, но зачастую сталкиваются с проблемами низкой надежности, эффективности и скорости. Нестабильность соединений, блокировки IP-адресов и изменения структуры сайтов приводят к потере данных и необходимости постоянного контроля процесса парсинга, что увеличивает затраты на поддержание и эксплуатацию подобных систем. В связи с этим, разработка новых подходов и инструментов для парсинга необходимой информации является весьма актуальной задачей, способной трансформировать область интеллектуального анализа данных. В статье рассмотрен процесс разработки системы парсинга информации патентных систем и сайтов физико-технических журналов с использованием современных технологий и подходов, а также представлены результаты проверки его работоспособности. Данный инструмент может быть полезен патентным ведомствам, исследователям, студентам, инженерам, ученым, работающим в рассматриваемой предметной области. Использование такой системы позволит открыть новые возможности для интеллектуального анализа данных и принятия стратегических решений в области инновационного развития, а также для глубокого анализа технологических трендов, выявления перспективных разработок и построения стратегий инновационного развития.
1. Загребельный М.С. Интеллектуальная собственность как ключевой ресурс в цифровой экономике. Вестник науки. 2024;1(6):502–511.
2. Горбашко Е.А., Карлик А.Е., Шепелев Р.Е. Патентная аналитика как элемент стратегического управления хозяйствующими структурами. Известия Санкт-Петербургского государственного экономического университета. 2023;(3–1):114–121.
3. Николаев А.С. Патентная аналитика. Санкт-Петербург: Университет ИТМО; 2022. 98 с.
4. Никитенко С.М., Месяц М.А., Королев М.К. Патентная аналитика как инструмент формирования инновационных секторов экономики. Экономика и управление инновациями. 2022;(1):86–95. https://doi.org/10.26730/2587-5574-2022-1-86-95
5. Федорцова А.С. Объекты интеллектуальной собственности. Российский экономический вестник. 2021;4(2):287–290.
6. Мазаник А.А. Цели и основные методики патентно-информационного поиска в электронных базах данных. В сборнике: Интеллектуальная собственность в современном мире: вызовы времени и перспективы развития: Материалы Международной научно-практической конференции: Часть 2, 20 октября 2021 года, Минск, Беларусь. Минск: Альфа-книга; 2021. С. 7–13.
7. Меньшиков Я.С. Преимущества автоматического сбора данных в сети интернет над ручным сбором данных. Universum: технические науки. 2022;10(103). URL: https://7universum.com/ru/tech/archive/item/14383
8. Козина С.А., Коробкин Д.М., Фоменков С.А. Система формирования единой базы данных по физической тематике. Математические методы в технологиях и технике. 2021;(8):89–92. https://doi.org/10.52348/2712-8873_MMTT_2021_8_89
9. Genin B.L., Zolkin D.S. Similarity search in patents databases. The evaluations of the search quality. World Patent Information. 2021;64. https://doi.org/10.1016/j.wpi.2021.102022
10. Feng Z. Formal Analysis for Natural Language Processing: A Handbook. Singapore: Springer; 2023. 796 p. https://doi.org/10.1007/978-981-16-5172-4
Ключевые слова: патенты, физико-технические журналы, парсинг, масштабируемость, отказоустойчивость
Для цитирования: Козина С.А., Кулинченко И.А., Коробкин Д.М., Фоменков С.А. Концепция и архитектура парсинга и хранения единой базы патентов и научных журнальных публикаций. Моделирование, оптимизация и информационные технологии. 2024;12(4). URL: https://moitvivt.ru/ru/journal/pdf?id=1740 DOI: 10.26102/2310-6018/2024.47.4.024
Поступила в редакцию 13.11.2024
Поступила после рецензирования 25.11.2024
Принята к публикации 27.11.2024