Метод извлечения информации на основе экстрактивных вопросно-ответных моделей и стратегий оценки и агрегации релевантных фрагментов текста

idМартынюк П.А.

УДК 004.89
DOI: 10.26102/2310-6018/2026.54.3.008

Аннотация
Список литературы
Об авторах

В условиях ускоренного роста объемов текстовых данных разнородной структуры особую важность приобретают универсальные подходы к извлечению информации, не зависящие от конкретной структуры и предметной области исходных текстов. Несмотря на широкое распространение больших генеративных языковых моделей, проблема точного и ресурсоэффективного извлечения информации из текстовых данных сохраняет свою актуальность. Генеративные модели, обладая широкими возможностями, зачастую избыточны для решения специализированных задач информационного поиска и могут демонстрировать низкую интерпретируемость получаемых результатов. Настоящее исследование является частью исследовательской работы, направленной на разработку альтернативного метода извлечения информации из неструктурированных текстов с целью формирования структурной модели текстового документа. Предлагаемый подход фокусируется на выделении семантически насыщенных фрагментов текста через анализ релевантности относительно заданных тематических аспектов текста. В рамках данного исследования предлагается метод извлечения информации с использованием экстрактивной вопросно-ответной модели, основанный на многоуровневой агрегации ответов с использованием комбинации стратегий оценки релевантности текстовых фрагментов, семантической кластеризации и выбора результирующего ответа на заданный вопрос. Предлагаемый подход позволяет идентифицировать в тексте слова, наиболее релевантные по отношению к искомым тематическим аспектам, которые впоследствии могут быть использованы для извлечения достоверной информации из документа. В статье представлены результаты эксперимента, подтверждающие эффективность предложенного метода в задаче идентификации семантически релевантных элементов текстового документа. Полученные результаты имеют практическую ценность для разработки систем автоматического построения семантических структур текста и могут быть применены в задачах анализа документов, информационного поиска и интеллектуальной обработки текстовых данных.

1. Xu D., Chen W., Peng W., et al. Large language models for generative information extraction: A survey. Frontiers of Computer Science. 2024;18(6). https://doi.org/10.1007/s11704-024-40555-y

2. Huang L., Yu W., Ma W., et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems. 2025;43(2). https://doi.org/10.1145/3703155

3. Zhao H., Chen H., Yang F., et al. Explainability for large language models: A survey. ACM Transactions on Intelligent Systems and Technology. 2024;15(2). https://doi.org/10.1145/3639372

4. Cong X., Yu B., Fang M., et al. Universal information extraction with meta-pretrained self-retrieval. In: Findings of the Association for Computational Linguistics: ACL 2023, 09–14 July 2023, Toronto, Canada. Association for Computational Linguistics; 2023. P. 4084–4100. https://doi.org/10.18653/v1/2023.findings-acl.251

5. Dagdelen J., Dunn A., Lee S., et al. Structured information extraction from scientific text with large language models. Nature Communications. 2024;15. https://doi.org/10.1038/s41467-024-45563-x

6. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, NAACL-HLT 2019: Volume 1, 02–07 June 2019, Minneapolis, MN, USA. Association for Computational Linguistics; 2019. P. 4171–4186.

7. Karpukhin V., Oguz B., Min S., et al. Dense Passage Retrieval for Open-Domain Question Answering. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, 16–20 November 2020, Online. Association for Computational Linguistics; 2020. P. 6769–6781. https://doi.org/10.18653/v1/2020.emnlp-main.550

8. Izacard G., Grave E. Distilling Knowledge from Reader to Retriever for Question Answering. arXiv. URL: https://doi.org/10.48550/arXiv.2012.04584 [Accessed 12th January 2026].

9. Mondal I., Yuan M., Natarajan A., et al. ADAPTIVE IE: Investigating the Complementarity of Human-AI Collaboration to Adaptively Extract Information on-the-fly. In: Proceedings of the 31st International Conference on Computational Linguistics, COLING 2025, 19–24 January 2025, Abu Dhabi, UAE. Association for Computational Linguistics; 2025. P. 5870–5889.

10. Ngo N.T., Min B., Nguyen Th.H. Unsupervised domain adaptation for joint information extraction. In: Findings of the Association for Computational Linguistics: EMNLP 2022, 07–11 December 2022, Abu Dhabi, UAE. Association for Computational Linguistics; 2022. P. 5894–5905. https://doi.org/10.18653/v1/2022.findings-emnlp.434

11. Arzideh K., Schäfer H., Allende-Cid H., et al. From BERT to generative AI – Comparing encoder-only vs. large language models in a cohort of lung cancer patients for named entity recognition in unstructured medical reports. Computers in Biology and Medicine. 2025;195. https://doi.org/10.1016/j.compbiomed.2025.110665

12. Березкин Д.В., Козлов И.А., Мартынюк П.А., Панфилкин А.М. Метод создания структурных моделей текстовых документов с использованием нейронных сетей. Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. 2023;12(1):28–45. (На англ.). https://doi.org/10.14529/cmse230102

13. Jain S., Van Zuylen M., Hajishirzi H., Beltagy I. SciREX: A challenge dataset for document-level information extraction. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, ACL 2020, 05–10 July 2020, Online. Association for Computational Linguistics; 2020. P. 7506–7516. https://doi.org/10.18653/v1/2020.acl-main.670

14. Graesser A.C., McNamara D.S., Louwerse M.M., Cai Zh. Coh-Metrix: Analysis of text on cohesion and language. Behavior Research Methods, Instruments, & Computers. 2004;36(2):193–202. https://doi.org/10.3758/BF03195564

15. Prentice Sh., Knight J., Rayson P., Haj M.E., Rutherford N. Problematising characteristicness: a biomedical association case study. International Journal of Corpus Linguistics. 2021;26(3):305–335. https://doi.org/10.1075/ijcl.19019.pre

Мартынюк Полина Антоновна

Email: martynyuk.pa@bmstu.ru

Scopus | ORCID | РИНЦ |

Московский государственный технический университет имени Н.Э. Баумана

Москва, Российская Федерация

Ключевые слова: обработка естественного языка, извлечение информации, неструктурированный текст, вопросно-ответная модель, механизм самовнимания

Для цитирования: Мартынюк П.А. Метод извлечения информации на основе экстрактивных вопросно-ответных моделей и стратегий оценки и агрегации релевантных фрагментов текста. Моделирование, оптимизация и информационные технологии. 2026;14(3). URL: https://moitvivt.ru/ru/journal/article?id=2207 DOI: 10.26102/2310-6018/2026.54.3.008

145

Полный текст статьи в PDF

Скачать JATS XML

Поступила в редакцию 30.01.2026

Поступила после рецензирования 07.03.2026

Принята к публикации 17.03.2026

Опубликована 31.03.2026