References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2025.49.2.010

1858

Разработка модели компьютерного зрения для детекции областей в визуально насыщенных документах

Developing a computer vision model for region detection in visually rich documents

0000-0001-8866-5610

Никитин

Петр Владимирович

Nikitin

Petr Vladimirovich

pvnikitin@fa.ru aff-1

0000-0001-7818-8013

Горохова

Римма Ивановна

Gorokhova

Rimma Ivanovna

rigorokhova@fa.ru aff-2

Финансовый университет при Правительстве Российской Федерации Financial University under the Government of the Russian Federation

01 01 2026

1 1

10.26102/2310-6018/2025.49.2.010

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

Проблема эффективной автоматизации процесса обработки визуально насыщенных документов является важной частью исследований в области компьютерного зрения. Статья посвящена разработке модели компьютерного зрения для детекции областей в визуально насыщенных документах, с акцентом на обработку чеков с использованием обучения с подкреплением. В условиях растущего объема бумажной документации и необходимости автоматизации обработки данных, эффективная идентификация ключевых элементов чеков (таких как суммы, даты и наименования товаров) становится особенно актуальной. В статье представлена архитектура модели, основанная на сверточных нейронных сетях (CNN), которая обучена на разнообразных наборах данных, включающих изображения чеков различного формата и качества. Рассмотрены методы извлечения информации и алгоритм обучения с подкреплением, который использует обрезанную функцию потерь, цикл обучения с подкреплением, представленный в SpanIE-Recur. Описаны этапы предобработки данных, включая увеличение выборки и нормализацию изображений, что способствует повышению точности детекции. Результаты экспериментов показывают высокую эффективность предложенной модели, достигающую значительных показателей точности и полноты при идентификации областей интереса. Также обсуждаются возможные применения данной технологии в сферах автоматизации бухгалтерского учета, финансового анализа и электронного документооборота. В заключение подчеркивается важность дальнейших исследований в области улучшения алгоритмов обработки изображений и расширения функциональности модели для работы с другими типами документов.

The problem of efficient automation of visually rich document processing is an important part of computer vision research. This paper is devoted to the development of a computer vision model for region detection in visually rich documents, with an emphasis on receipt processing using reinforcement learning. In the context of the growing volume of paper documentation and the need to automate data processing, efficient identification of key elements of receipts (such as amounts, dates, and product names) is becoming especially relevant. The paper presents the architecture of the model based on convolutional neural networks (CNN), which is trained on a variety of datasets including receipt images of different formats and qualities. The methods of information extraction and the reinforcement learning algorithm are considered, which uses a trimmed loss function, a reinforcement learning loop presented in SpanIE-Recur. The stages of data preprocessing are described, including sample augmentation and image normalization, which contributes to increasing the detection accuracy. The experimental results show the high efficiency of the proposed model, achieving significant accuracy and recall in identifying regions of interest. Possible applications of this technology in the fields of accounting automation, financial analysis and electronic document management are also discussed. In conclusion, the importance of further research in the field of improving image processing algorithms and expanding the functionality of the model to work with other types of documents is emphasized.

визуально насыщенный документ компьютерное зрение обучение с подкреплением детекция объектов обработка чеков автоматизация области документа предобработка данных электронный документооборот

visually rich document computer vision reinforcement learning object detection receipt processing automation document areas data preprocessing electronic document management

Работа подготовлена по результатам исследований, выполненных за счет бюджетных средств по государственному заданию Финуниверситета.

The work was prepared based on the results of research carried out at the expense of budgetary funds under a state assignment from the Financial University.

References 1

Хуан Д. Алгоритмы извлечения информации из текстов, парсинг веб-страниц с использованием языка программирования Python. Актуальные исследования. 2022;(30):21–24.

Шестакова М.В., Головнина А.А., Головнин О.К. Извлечение знаний из графических и текстовых документов средствами искусственного интеллекта. В сборнике: Проблемы информатики в образовании, управлении, экономике и технике: сборник статей XXIV Международной научно‐технической конференции, 22–23 ноября 2024 года, Пенза, Россия. Пенза: Пензенский государственный университет; 2024. С. 273–278.

Чиняков О.Е. Электронный документооборот: свойства и проблемы внедрения Гуманитарные и политико-правовые исследования. 2023;(1):43–50.

Исачкова Л.Н., Асанова Н.А., Хут С.Ю., Ешугова Ф.Р. Обеспечение экономической безопасности в системе электронного документооборота в условиях цифровой трансформации бизнеса. Вестник Академии знаний. 2021;(45):113–117. https://doi.org/10.24412/2304-6139-2021-11342

Mandvikar Sh. Augmenting Intelligent Document Processing (IDP) Workflows with Contemporary Large Language Models (LLMs). International Journal of Computer Trends and Technology. 2023;71(10):80–91. https://doi.org/10.14445/22312803/IJCTT-V71I10P110

Nicolaieff L., Kandi M.M., Zegaoui Yo., Bortolaso Ch. Intelligent Document Processing with Small and Relevant Training Dataset. In: 2022 International Conference on Intelligent Systems and Computer Vision (ISCV), 18–20 May 2022, Fez, Morocco. IEEE; 2022. P. 1–7. https://doi.org/10.1109/ISCV54655.2022.9806100

Wang Z., Zhou Y., Wei W., Lee Ch.-Yu, Tata S. VRDU: A Benchmark for Visually-rich Document Understanding. In: KDD '23: Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 06–10 August 2023, Long Beach, CA, USA. New York: Association for Computing Machinery; 2023. P. 5184–5193. https://doi.org/10.1145/3580305.3599929

Ha H.T., Horák A. Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features. Signal Processing: Image Communication. 2022;102. https://doi.org/10.1016/j.image.2021.116601

Aggarwal N., Patra S., Sinha S., Jaiman A., Ghosh D. Data Extraction from Scanned Invoice Documents in Multiple Languages. In: International Workshop on Signal Processing and Machine Learning (WSPML 2023): Proceedings: Volume 12943, 22–24 September 2023, Hangzhou, China. 2023. https://doi.org/10.1117/12.3019910

Чуб В.С. Извлечение признаков рекуррентными нейронными сетями из больших объёмов данных. В сборнике: За нами будущее: взгляд молодых ученых на инновационное развитие общества: сборник научных статей 3-й Всероссийской молодежной научной конференции, 03 июня 2022 года, Курск, Россия. Курск: Юго-Западный государственный университет; 2022. С. 536–539.

Хань И., Чэнь Ч., Хэ Х. Искусственный интеллект и технологии языкового анализа. Столыпинский вестник. 2024;6(10). URL: https://elibrary.ru/item.asp?id=75102830

Бурнашев Р.Ф., Анварова Л.А. Применение нейронных сетей в автоматическом переводе и обработке естественного языка. Universum: технические науки. 2024;(4–1):39–43.

Xie J., Wendt J.B., Zhou Y., Ebner S., Tata S. FieldSwap: Data Augmentation for Effective Form-Like Document Extraction. In: 2024 IEEE 40th International Conference on Data Engineering (ICDE), 13–16 Мау 2024, Utrecht, Netherlands. IEEE; 2024. P. 4722–4732. https://doi.org/10.1109/ICDE60146.2024.00359

Xu Y., Li M., Cui L., Huang Sh., Wei F., Zhou M. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In: KDD '20: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 06–10 July 2020, Virtual Event, CA, USA. New York: Association for Computing Machinery; 2020. P. 1192–1200. https://doi.org/10.1145/3394486.3403172

Новиков Н.П., Виноградов В.И. Опыт использования архитектуры сети Transformer для аппроксимации политики агента в обучении c подкреплением. Моделирование и анализ данных. 2024;14(2):7–22. https://doi.org/10.17759/mda.2024140201

Alves E.L.G., Carvalho C., De Lima P.M., Pinheiro V., Furtado V. Information Extraction from Financial Statements Based on Visually Rich Document Models. In: Proceedings of the 20th National Meeting on Artificial and Computational Intelligence (ENIAC 2023), 25–29 September 2023, Belo Horizonte, Brazil. Porto Alegre: Sociedade Brasileira de Computação; 2023. P. 894–908. https://doi.org/10.5753/eniac.2023.234520

Huang Yu., Lv T., Cui L., Lu Yu., Wei F. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. In: MM '22: Proceedings of the 30th ACM International Conference on Multimedia, 10–14 October 2022, Lisboa, Portugal. New York: Association for Computing Machinery; 2022. P. 4083–4091. https://doi.org/10.1145/3503161.3548112

Mistry J., Arzeno N.M. Document Understanding for Healthcare Referrals. In: 2023 IEEE 11th International Conference on Healthcare Informatics (ICHI 2023), 26–29 June 2023, Houston, TX, USA. IEEE; 2023. P. 460–464. https://doi.org/10.1109/ICHI57859.2023.00067

Ding Y., Vaiani L., Han C., et al. 3MVRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding. In: Findings of the Association for Computational Linguistics, ACL 2024, 11–16 August 2024, Bangkok, Thailand. New York: Association for Computational Linguistics; 2024. P. 15233–15244. https://doi.org/10.18653/v1/2024.findings-acl.903

Tchuitcheu W.C., Lu T., Dooms A. Table Representation Learning Using Heterogeneous Graph Embedding. Pattern Recognition. 2024;156. https://doi.org/10.1016/j.patcog.2024.110734

The authors declare that there are no conflicts of interest present.