Разработка модели компьютерного зрения для детекции областей в визуально насыщенных документах
Работая с сайтом, я даю свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта обрабатывается системой Яндекс.Метрика
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Разработка модели компьютерного зрения для детекции областей в визуально насыщенных документах

idНикитин П.В., idГорохова Р.И.

УДК 004.9
DOI: 10.26102/2310-6018/2025.49.2.010

  • Аннотация
  • Список литературы
  • Об авторах

Проблема эффективной автоматизации процесса обработки визуально насыщенных документов является важной частью исследований в области компьютерного зрения. Статья посвящена разработке модели компьютерного зрения для детекции областей в визуально насыщенных документах, с акцентом на обработку чеков с использованием обучения с подкреплением. В условиях растущего объема бумажной документации и необходимости автоматизации обработки данных, эффективная идентификация ключевых элементов чеков (таких как суммы, даты и наименования товаров) становится особенно актуальной. В статье представлена архитектура модели, основанная на сверточных нейронных сетях (CNN), которая обучена на разнообразных наборах данных, включающих изображения чеков различного формата и качества. Рассмотрены методы извлечения информации и алгоритм обучения с подкреплением, который использует обрезанную функцию потерь, цикл обучения с подкреплением, представленный в SpanIE-Recur. Описаны этапы предобработки данных, включая увеличение выборки и нормализацию изображений, что способствует повышению точности детекции. Результаты экспериментов показывают высокую эффективность предложенной модели, достигающую значительных показателей точности и полноты при идентификации областей интереса. Также обсуждаются возможные применения данной технологии в сферах автоматизации бухгалтерского учета, финансового анализа и электронного документооборота. В заключение подчеркивается важность дальнейших исследований в области улучшения алгоритмов обработки изображений и расширения функциональности модели для работы с другими типами документов.

1. Хуан Д. Алгоритмы извлечения информации из текстов, парсинг веб-страниц с использованием языка программирования Python. Актуальные исследования. 2022;(30):21–24.

2. Шестакова М.В., Головнина А.А., Головнин О.К. Извлечение знаний из графических и текстовых документов средствами искусственного интеллекта. В сборнике: Проблемы информатики в образовании, управлении, экономике и технике: сборник статей XXIV Международной научно‐технической конференции, 22–23 ноября 2024 года, Пенза, Россия. Пенза: Пензенский государственный университет; 2024. С. 273–278.

3. Чиняков О.Е. Электронный документооборот: свойства и проблемы внедрения Гуманитарные и политико-правовые исследования. 2023;(1):43–50.

4. Исачкова Л.Н., Асанова Н.А., Хут С.Ю., Ешугова Ф.Р. Обеспечение экономической безопасности в системе электронного документооборота в условиях цифровой трансформации бизнеса. Вестник Академии знаний. 2021;(45):113–117. https://doi.org/10.24412/2304-6139-2021-11342

5. Mandvikar Sh. Augmenting Intelligent Document Processing (IDP) Workflows with Contemporary Large Language Models (LLMs). International Journal of Computer Trends and Technology. 2023;71(10):80–91. https://doi.org/10.14445/22312803/IJCTT-V71I10P110

6. Nicolaieff L., Kandi M.M., Zegaoui Yo., Bortolaso Ch. Intelligent Document Processing with Small and Relevant Training Dataset. In: 2022 International Conference on Intelligent Systems and Computer Vision (ISCV), 18–20 May 2022, Fez, Morocco. IEEE; 2022. P. 1–7. https://doi.org/10.1109/ISCV54655.2022.9806100

7. Wang Z., Zhou Y., Wei W., Lee Ch.-Yu, Tata S. VRDU: A Benchmark for Visually-rich Document Understanding. In: KDD '23: Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 06–10 August 2023, Long Beach, CA, USA. New York: Association for Computing Machinery; 2023. P. 5184–5193. https://doi.org/10.1145/3580305.3599929

8. Ha H.T., Horák A. Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features. Signal Processing: Image Communication. 2022;102. https://doi.org/10.1016/j.image.2021.116601

9. Aggarwal N., Patra S., Sinha S., Jaiman A., Ghosh D. Data Extraction from Scanned Invoice Documents in Multiple Languages. In: International Workshop on Signal Processing and Machine Learning (WSPML 2023): Proceedings: Volume 12943, 22–24 September 2023, Hangzhou, China. 2023. https://doi.org/10.1117/12.3019910

10. Чуб В.С. Извлечение признаков рекуррентными нейронными сетями из больших объёмов данных. В сборнике: За нами будущее: взгляд молодых ученых на инновационное развитие общества: сборник научных статей 3-й Всероссийской молодежной научной конференции, 03 июня 2022 года, Курск, Россия. Курск: Юго-Западный государственный университет; 2022. С. 536–539.

11. Хань И., Чэнь Ч., Хэ Х. Искусственный интеллект и технологии языкового анализа. Столыпинский вестник. 2024;6(10). URL: https://elibrary.ru/item.asp?id=75102830

12. Бурнашев Р.Ф., Анварова Л.А. Применение нейронных сетей в автоматическом переводе и обработке естественного языка. Universum: технические науки. 2024;(4–1):39–43.

13. Xie J., Wendt J.B., Zhou Y., Ebner S., Tata S. FieldSwap: Data Augmentation for Effective Form-Like Document Extraction. In: 2024 IEEE 40th International Conference on Data Engineering (ICDE), 13–16 Мау 2024, Utrecht, Netherlands. IEEE; 2024. P. 4722–4732. https://doi.org/10.1109/ICDE60146.2024.00359

14. Xu Y., Li M., Cui L., Huang Sh., Wei F., Zhou M. LayoutLM: Pre-training of Text and Layout for Document Image Understanding. In: KDD '20: Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, 06–10 July 2020, Virtual Event, CA, USA. New York: Association for Computing Machinery; 2020. P. 1192–1200. https://doi.org/10.1145/3394486.3403172

15. Новиков Н.П., Виноградов В.И. Опыт использования архитектуры сети Transformer для аппроксимации политики агента в обучении c подкреплением. Моделирование и анализ данных. 2024;14(2):7–22. https://doi.org/10.17759/mda.2024140201

16. Alves E.L.G., Carvalho C., De Lima P.M., Pinheiro V., Furtado V. Information Extraction from Financial Statements Based on Visually Rich Document Models. In: Proceedings of the 20th National Meeting on Artificial and Computational Intelligence (ENIAC 2023), 25–29 September 2023, Belo Horizonte, Brazil. Porto Alegre: Sociedade Brasileira de Computação; 2023. P. 894–908. https://doi.org/10.5753/eniac.2023.234520

17. Huang Yu., Lv T., Cui L., Lu Yu., Wei F. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. In: MM '22: Proceedings of the 30th ACM International Conference on Multimedia, 10–14 October 2022, Lisboa, Portugal. New York: Association for Computing Machinery; 2022. P. 4083–4091. https://doi.org/10.1145/3503161.3548112

18. Mistry J., Arzeno N.M. Document Understanding for Healthcare Referrals. In: 2023 IEEE 11th International Conference on Healthcare Informatics (ICHI 2023), 26–29 June 2023, Houston, TX, USA. IEEE; 2023. P. 460–464. https://doi.org/10.1109/ICHI57859.2023.00067

19. Ding Y., Vaiani L., Han C., et al. 3MVRD: Multimodal Multi-task Multi-teacher Visually-Rich Form Document Understanding. In: Findings of the Association for Computational Linguistics, ACL 2024, 11–16 August 2024, Bangkok, Thailand. New York: Association for Computational Linguistics; 2024. P. 15233–15244. https://doi.org/10.18653/v1/2024.findings-acl.903

20. Tchuitcheu W.C., Lu T., Dooms A. Table Representation Learning Using Heterogeneous Graph Embedding. Pattern Recognition. 2024;156. https://doi.org/10.1016/j.patcog.2024.110734

Никитин Петр Владимирович
кандидат педагогических наук, доцент
Email: pvnikitin@fa.ru

ORCID | РИНЦ |

Финансовый университет при Правительстве Российской Федерации

Москва, Российская Федерация

Горохова Римма Ивановна
кандидат педагогических наук, доцент
Email: rigorokhova@fa.ru

WoS | Scopus | ORCID | РИНЦ |

Финансовый университет при Правительстве Российской Федерации

Москва, Российская Федерация

Ключевые слова: визуально насыщенный документ, компьютерное зрение, обучение с подкреплением, детекция объектов, обработка чеков, автоматизация, области документа, предобработка данных, электронный документооборот

Для цитирования: Никитин П.В., Горохова Р.И. Разработка модели компьютерного зрения для детекции областей в визуально насыщенных документах. Моделирование, оптимизация и информационные технологии. 2025;13(2). URL: https://moitvivt.ru/ru/journal/pdf?id=1858 DOI: 10.26102/2310-6018/2025.49.2.010

18

Полный текст статьи в PDF

Поступила в редакцию 20.03.2025

Поступила после рецензирования 14.04.2025

Принята к публикации 21.04.2025