<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2024.47.4.024</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">1740</article-id>
      <title-group>
        <article-title xml:lang="ru">Концепция и архитектура парсинга и хранения единой базы патентов и научных журнальных публикаций</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Concept and architecture of parsing and storing a unified database of patents and scientific journal publications</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <contrib-id contrib-id-type="orcid">0000-0003-4049-620X</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Козина</surname>
              <given-names>Светлана Александровна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Kozina</surname>
              <given-names>Svetlana Alexandrovna</given-names>
            </name>
          </name-alternatives>
          <email>ksvetlan54@gmail.com</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Кулинченко</surname>
              <given-names>Инна Александровна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Kulinchenko</surname>
              <given-names>Inna Alexandrovna</given-names>
            </name>
          </name-alternatives>
          <email>sallivan.klen@yandex.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0000-0002-4684-1011</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Коробкин</surname>
              <given-names>Дмитрий Михайлович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Korobkin</surname>
              <given-names>Dmitriy Mikhailovich</given-names>
            </name>
          </name-alternatives>
          <email>dkorobkin80@mail.ru</email>
          <xref ref-type="aff">aff-3</xref>
        </contrib>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0000-0001-9907-4488</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Фоменков</surname>
              <given-names>Сергей Алексеевич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Fomenkov</surname>
              <given-names>Sergey Alekseevich</given-names>
            </name>
          </name-alternatives>
          <email>saf550@yandex.ru</email>
          <xref ref-type="aff">aff-4</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Волгоградский государственный технический университет</aff>
        <aff xml:lang="en">Volgograd State Technical University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Волгоградский государственный технический университет</aff>
        <aff xml:lang="en">Volgograd State Technical University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-3">
        <aff xml:lang="ru">Волгоградский государственный технический университет</aff>
        <aff xml:lang="en">Volgograd State Technical University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-4">
        <aff xml:lang="ru">Волгоградский государственный технический университет</aff>
        <aff xml:lang="en">Volgograd State Technical University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2024.47.4.024</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=1740"/>
      <abstract xml:lang="ru">
        <p>Существующие на текущий момент методы автоматизированного сбора данных, хотя и облегчают данный процесс, но зачастую сталкиваются с проблемами низкой надежности, эффективности и скорости. Нестабильность соединений, блокировки IP-адресов и изменения структуры сайтов приводят к потере данных и необходимости постоянного контроля процесса парсинга, что увеличивает затраты на поддержание и эксплуатацию подобных систем. В связи с этим, разработка новых подходов и инструментов для парсинга необходимой информации является весьма актуальной задачей, способной трансформировать область интеллектуального анализа данных. В статье рассмотрен процесс разработки системы парсинга информации патентных систем и сайтов физико-технических журналов с использованием современных технологий и подходов, а также представлены результаты проверки его работоспособности. Данный инструмент может быть полезен патентным ведомствам, исследователям, студентам, инженерам, ученым, работающим в рассматриваемой предметной области. Использование такой системы позволит открыть новые возможности для интеллектуального анализа данных и принятия стратегических решений в области инновационного развития, а также для глубокого анализа технологических трендов, выявления перспективных разработок и построения стратегий инновационного развития.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>The currently existing methods of automated data collection, although they facilitate this process, often face problems of low reliability, efficiency and speed. Unstable connections, blocking IP addresses and changes in the structure of sites lead to data loss and the need for constant monitoring of the parsing process, which increases the cost of maintaining and operating such systems. In this regard, the development of new approaches and tools for parsing the necessary information is a very urgent task that can transform the field of data mining. The article discusses the process of developing a module for parsing information from patent systems and websites of physics and technology journals using modern technologies and approaches, and also presents the results of checking its operability. This tool can be useful for patent offices, researchers, students, engineers, and scientists working in the subject area under consideration. The use of such a module will open up new opportunities for data mining and strategic decision-making in the field of innovative development, as well as for in-depth analysis of technological trends, identification of promising developments and building innovative development strategies.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>патенты</kwd>
        <kwd>физико-технические журналы</kwd>
        <kwd>парсинг</kwd>
        <kwd>масштабируемость</kwd>
        <kwd>отказоустойчивость</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>patents</kwd>
        <kwd>physics and technology journals</kwd>
        <kwd>parsing</kwd>
        <kwd>scalability</kwd>
        <kwd>fault tolerance</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено за счет гранта Российского научного фонда № 24-21-20140, https://rscf.ru/project/24-21-20140/, и Администрации Волгоградской области.</funding-statement>
        <funding-statement xml:lang="en">The study was supported by the grant of the Russian Science Foundation No. 24-21-20140, https://rscf.ru/project/24-21-20140/, and the Administration of the Volgograd Region.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Загребельный М.С. Интеллектуальная собственность как ключевой ресурс в цифровой экономике. Вестник науки. 2024;1(6):502–511.</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Горбашко Е.А., Карлик А.Е., Шепелев Р.Е. Патентная аналитика как элемент стратегического управления хозяйствующими структурами. Известия Санкт-Петербургского государственного экономического университета. 2023;(3–1):114–121.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Николаев А.С. Патентная аналитика. Санкт-Петербург: Университет ИТМО; 2022. 98 с.</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Никитенко С.М., Месяц М.А., Королев М.К. Патентная аналитика как инструмент формирования инновационных секторов экономики. Экономика и управление инновациями. 2022;(1):86–95. https://doi.org/10.26730/2587-5574-2022-1-86-95</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Федорцова А.С. Объекты интеллектуальной собственности. Российский экономический вестник. 2021;4(2):287–290.</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Мазаник А.А. Цели и основные методики патентно-информационного поиска в электронных базах данных. В сборнике: Интеллектуальная собственность в современном мире: вызовы времени и перспективы развития: Материалы Международной научно-практической конференции: Часть 2, 20 октября 2021 года, Минск, Беларусь. Минск: Альфа-книга; 2021. С. 7–13.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Меньшиков Я.С. Преимущества автоматического сбора данных в сети интернет над ручным сбором данных. Universum: технические науки. 2022;10(103). URL: https://7universum.com/ru/tech/archive/item/14383</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Козина С.А., Коробкин Д.М., Фоменков С.А. Система формирования единой базы данных по физической тематике. Математические методы в технологиях и технике. 2021;(8):89–92. https://doi.org/10.52348/2712-8873_MMTT_2021_8_89</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Genin B.L., Zolkin D.S. Similarity search in patents databases. The evaluations of the search quality. World Patent Information. 2021;64. https://doi.org/10.1016/j.wpi.2021.102022</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Feng Z. Formal Analysis for Natural Language Processing: A Handbook. Singapore: Springer; 2023. 796 p. https://doi.org/10.1007/978-981-16-5172-4</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>