<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2025.49.2.010</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">1858</article-id>
      <title-group>
        <article-title xml:lang="ru">Разработка модели компьютерного зрения для детекции областей в визуально насыщенных документах</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Developing a computer vision model for region detection in visually rich documents</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <contrib-id contrib-id-type="orcid">0000-0001-8866-5610</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Никитин</surname>
              <given-names>Петр Владимирович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Nikitin</surname>
              <given-names>Petr Vladimirovich</given-names>
            </name>
          </name-alternatives>
          <email>pvnikitin@fa.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0000-0001-7818-8013</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Горохова</surname>
              <given-names>Римма Ивановна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Gorokhova</surname>
              <given-names>Rimma Ivanovna</given-names>
            </name>
          </name-alternatives>
          <email>rigorokhova@fa.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Финансовый университет при Правительстве Российской Федерации</aff>
        <aff xml:lang="en">Financial University under the Government of the Russian Federation</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Финансовый университет при Правительстве Российской Федерации</aff>
        <aff xml:lang="en">Financial University under the Government of the Russian Federation</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2025.49.2.010</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=1858"/>
      <abstract xml:lang="ru">
        <p>Проблема эффективной автоматизации процесса обработки визуально насыщенных документов является важной частью исследований в области компьютерного зрения. Статья посвящена разработке модели компьютерного зрения для детекции областей в визуально насыщенных документах, с акцентом на обработку чеков с использованием обучения с подкреплением. В условиях растущего объема бумажной документации и необходимости автоматизации обработки данных, эффективная идентификация ключевых элементов чеков (таких как суммы, даты и наименования товаров) становится особенно актуальной. В статье представлена архитектура модели, основанная на сверточных нейронных сетях (CNN), которая обучена на разнообразных наборах данных, включающих изображения чеков различного формата и качества. Рассмотрены методы извлечения информации и алгоритм обучения с подкреплением, который использует обрезанную функцию потерь, цикл обучения с подкреплением, представленный в SpanIE-Recur. Описаны этапы предобработки данных, включая увеличение выборки и нормализацию изображений, что способствует повышению точности детекции. Результаты экспериментов показывают высокую эффективность предложенной модели, достигающую значительных показателей точности и полноты при идентификации областей интереса. Также обсуждаются возможные применения данной технологии в сферах автоматизации бухгалтерского учета, финансового анализа и электронного документооборота. В заключение подчеркивается важность дальнейших исследований в области улучшения алгоритмов обработки изображений и расширения функциональности модели для работы с другими типами документов.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>The problem of efficient automation of visually rich document processing is an important part of computer vision research. This paper is devoted to the development of a computer vision model for region detection in visually rich documents, with an emphasis on receipt processing using reinforcement learning. In the context of the growing volume of paper documentation and the need to automate data processing, efficient identification of key elements of receipts (such as amounts, dates, and product names) is becoming especially relevant. The paper presents the architecture of the model based on convolutional neural networks (CNN), which is trained on a variety of datasets including receipt images of different formats and qualities. The methods of information extraction and the reinforcement learning algorithm are considered, which uses a trimmed loss function, a reinforcement learning loop presented in SpanIE-Recur. The stages of data preprocessing are described, including sample augmentation and image normalization, which contributes to increasing the detection accuracy. The experimental results show the high efficiency of the proposed model, achieving significant accuracy and recall in identifying regions of interest. Possible applications of this technology in the fields of accounting automation, financial analysis and electronic document management are also discussed. In conclusion, the importance of further research in the field of improving image processing algorithms and expanding the functionality of the model to work with other types of documents is emphasized.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>визуально насыщенный документ</kwd>
        <kwd>компьютерное зрение</kwd>
        <kwd>обучение с подкреплением</kwd>
        <kwd>детекция объектов</kwd>
        <kwd>обработка чеков</kwd>
        <kwd>автоматизация</kwd>
        <kwd>области документа</kwd>
        <kwd>предобработка данных</kwd>
        <kwd>электронный документооборот</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>visually rich document</kwd>
        <kwd>computer vision</kwd>
        <kwd>reinforcement learning</kwd>
        <kwd>object detection</kwd>
        <kwd>receipt processing</kwd>
        <kwd>automation</kwd>
        <kwd>document areas</kwd>
        <kwd>data preprocessing</kwd>
        <kwd>electronic document management</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Работа подготовлена по результатам исследований, выполненных за счет бюджетных средств по государственному заданию Финуниверситета.</funding-statement>
        <funding-statement xml:lang="en">The work was prepared based on the results of research carried out at the expense of budgetary funds under a state assignment from the Financial University.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Хуан Д. Алгоритмы извлечения информации из текстов, парсинг веб-страниц с использованием языка программирования Python. Актуальные исследования. 2022;(30):21–24.</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Шестакова М.В., Головнина А.А., Головнин О.К. Извлечение знаний из графических и текстовых документов средствами искусственного интеллекта. В сборнике: Проблемы информатики в образовании, управлении, экономике и технике: сборник статей XXIV Международной научно‐технической конференции, 22–23 ноября 2024 года, Пенза, Россия. Пенза: Пензенский государственный университет; 2024. С. 273–278.</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Чиняков О.Е. Электронный документооборот: свойства и проблемы внедрения Гуманитарные и политико-правовые исследования. 2023;(1):43–50.</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Исачкова Л.Н., Асанова Н.А., Хут С.Ю., Ешугова Ф.Р. Обеспечение экономической безопасности в системе электронного документооборота в условиях цифровой трансформации бизнеса. Вестник Академии знаний. 2021;(45):113–117. https://doi.org/10.24412/2304-6139-2021-11342</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Mandvikar Sh. Augmenting Intelligent Document Processing (IDP) Workflows with Contemporary Large Language Models (LLMs). International Journal of Computer Trends and Technology. 2023;71(10):80–91. https://doi.org/10.14445/22312803/IJCTT-V71I10P110</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Nicolaieff L., Kandi M.M., Zegaoui Yo., Bortolaso Ch. Intelligent Document Processing with Small and Relevant Training Dataset. In: 2022 International Conference on Intelligent Systems and Computer Vision (ISCV), 18–20 May 2022, Fez, Morocco. IEEE; 2022. P. 1–7. https://doi.org/10.1109/ISCV54655.2022.9806100</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Wang Z., Zhou Y., Wei W., Lee Ch.-Yu, Tata S. VRDU: A Benchmark for Visually-rich Document Understanding. In: KDD '23: Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 06–10 August 2023, Long Beach, CA, USA. New York: Association for Computing Machinery; 2023. P. 5184–5193. https://doi.org/10.1145/3580305.3599929</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Ha H.T., Horák A. Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features. Signal Processing: Image Communication. 2022;102. https://doi.org/10.1016/j.image.2021.116601</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Aggarwal N., Patra S., Sinha S., Jaiman A., Ghosh D. Data Extraction from Scanned Invoice Documents in Multiple Languages. In: International Workshop on Signal Processing and Machine Learning (WSPML 2023): Proceedings: Volume 12943, 22–24 September 2023, Hangzhou, China. 2023. https://doi.org/10.1117/12.3019910</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Чуб В.С. Извлечение признаков рекуррентными нейронными сетями из больших объёмов данных. В сборнике: За нами будущее: взгляд молодых ученых на инновационное развитие общества: сборник научных статей 3-й Всероссийской молодежной научной конференции, 03 июня 2022 года, Курск, Россия. Курск: Юго-Западный государственный университет; 2022. С. 536–539.</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Хань И., Чэнь Ч., Хэ Х. Искусственный интеллект и технологии языкового анализа. Столыпинский вестник. 2024;6(10). URL: https://elibrary.ru/item.asp?id=75102830</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Бурнашев Р.Ф., Анварова Л.А. Применение нейронных сетей в автоматическом переводе и обработке естественного языка. Universum: технические науки. 2024;(4–1):39–43.</mixed-citation>
      </ref>
      <ref id="cit13">
        <label>13</label>
        <mixed-citation xml:lang="ru">Xie J., Wendt J.B., Zhou Y., Ebner S., Tata S. FieldSwap: Data Augmentation for Effective Form-Like Document Extraction. In: 2024 IEEE 40th International Conference on Data Engineering (ICDE), 13–16 Мау 2024, Utrecht, Netherlands. IEEE; 2024. P. 4722–4732. https://doi.org/10.1109/ICDE60146.2024.00359</mixed-citation>
      </ref>
      <ref id="cit14">
        <label>14</label>
        <mixed-citation xml:lang="ru">Xu Y., Li M., Cui L., Huang Sh., Wei F., Zhou M. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In: KDD '20: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery &amp; Data Mining, 06–10 July 2020, Virtual Event, CA, USA. New York: Association for Computing Machinery; 2020. P. 1192–1200. https://doi.org/10.1145/3394486.3403172</mixed-citation>
      </ref>
      <ref id="cit15">
        <label>15</label>
        <mixed-citation xml:lang="ru">Новиков Н.П., Виноградов В.И. Опыт использования архитектуры сети Transformer для аппроксимации политики агента в обучении c подкреплением. Моделирование и анализ данных. 2024;14(2):7–22. https://doi.org/10.17759/mda.2024140201</mixed-citation>
      </ref>
      <ref id="cit16">
        <label>16</label>
        <mixed-citation xml:lang="ru">Alves E.L.G., Carvalho C., De Lima P.M., Pinheiro V., Furtado V. Information Extraction from Financial Statements Based on Visually Rich Document Models. In: Proceedings of the 20th National Meeting on Artificial and Computational Intelligence (ENIAC 2023), 25–29 September 2023, Belo Horizonte, Brazil. Porto Alegre: Sociedade Brasileira de Computação; 2023. P. 894–908. https://doi.org/10.5753/eniac.2023.234520</mixed-citation>
      </ref>
      <ref id="cit17">
        <label>17</label>
        <mixed-citation xml:lang="ru">Huang Yu., Lv T., Cui L., Lu Yu., Wei F. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. In: MM '22: Proceedings of the 30th ACM International Conference on Multimedia, 10–14 October 2022, Lisboa, Portugal. New York: Association for Computing Machinery; 2022. P. 4083–4091. https://doi.org/10.1145/3503161.3548112</mixed-citation>
      </ref>
      <ref id="cit18">
        <label>18</label>
        <mixed-citation xml:lang="ru">Mistry J., Arzeno N.M. Document Understanding for Healthcare Referrals. In: 2023 IEEE 11th International Conference on Healthcare Informatics (ICHI 2023), 26–29 June 2023, Houston, TX, USA. IEEE; 2023. P. 460–464. https://doi.org/10.1109/ICHI57859.2023.00067</mixed-citation>
      </ref>
      <ref id="cit19">
        <label>19</label>
        <mixed-citation xml:lang="ru">Ding Y., Vaiani L., Han C., et al. 3MVRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding. In: Findings of the Association for Computational Linguistics, ACL 2024, 11–16 August 2024, Bangkok, Thailand. New York: Association for Computational Linguistics; 2024. P. 15233–15244. https://doi.org/10.18653/v1/2024.findings-acl.903</mixed-citation>
      </ref>
      <ref id="cit20">
        <label>20</label>
        <mixed-citation xml:lang="ru">Tchuitcheu W.C., Lu T., Dooms A. Table Representation Learning Using Heterogeneous Graph Embedding. Pattern Recognition. 2024;156. https://doi.org/10.1016/j.patcog.2024.110734</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>