Подход к построению распределённой аналитической платформы для мультимодальных медицинских данных в задачах клинической диагностики
Работая с сайтом, я даю свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта обрабатывается системой Яндекс.Метрика
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Подход к построению распределённой аналитической платформы для мультимодальных медицинских данных в задачах клинической диагностики

Пожарский Р.В.,  Петрова Е.С. 

УДК 004.9:616(043)
DOI: 10.26102/2310-6018/2025.51.4.069

  • Аннотация
  • Список литературы
  • Об авторах

Представлен подход к построению распределённой аналитической платформы для глубокой обработки мультимодальных медицинских данных, ориентированной на задачи клинической диагностики и поддержку врачебных решений. В качестве исходной предпосылки рассматривается рост объёмов гетерогенных данных (DICOM изображения, электронные медицинские карты, лабораторные показатели) в условиях централизации через системы класса ЕГИСЗ (Единая государственная информационная система в сфере здравоохранения) при сохраняющемся дефиците специализированных инструментов комплексного анализа в реальной клинической практике. Ключевым элементом платформы является гибридная модель обработки, сочетающая распределённый конвейер на Apache Spark с модульной системой подготовки данных и мультимодальный трансформер для кросс модального анализа. В конвейере реализованы специализированные процедуры токенизации и нормализации текстов (Spark NLP), извлечения метаданных и конвертации DICOM изображений в числовые представления. На уровне высокопроизводительных вычислений используется масштабируемое ядро на Apache Spark с возможностью передачи подготовленных выборок в GPU ориентированный сервис через Petastorm и PyTorch. Мультимодальный трансформер объединяет эмбеддинги изображений (ViT), клинико-текстовых описаний (BioClinicalBERT) и табличных признаков, применяя позиционное кодирование и несколько слоёв self attention для формирования агрегированного представления эпизода лечения. Разработан программный прототип платформы с использованием Docker. Эксперименты на синтетическом наборе мультимодальных данных продемонстрировали возможность выявления статистически значимых и клинически релевантных паттернов (например, ассоциация пневмонии с ХОБЛ) при высокой производительности.

1. Hao Y., Cheng Ch., Li J., et al. Multimodal Integration in Health Care: Development with Applications in Disease Management. Journal of Medical Internet Research. 2025;27. https://doi.org/10.2196/76557

2. Liu C., Ye F. A Review of Multimodal Medical Data Fusion Techniques for Personalized Medicine. In: IC-BIS '25: Proceedings of the 4th International Conference on Biomedical and Intelligent Systems, 11–13 April 2025, Bologna, Italy. New York: Association for Computing Machinery; 2025. P. 338–347. https://doi.org/10.1145/3745034.3745088

3. Krones F., Marikkar U., Parsons G., Szmul A., Mahdi A. Review of Multimodal Machine Learning Approaches in Healthcare. Information Fusion. 2025;114. https://doi.org/10.1016/j.inffus.2024.102690

4. Xie Ch., Ningc Z., Guo T., et al. Multimodal Data Integration for Biologically-Relevant Artificial Intelligence to Guide Adjuvant Chemotherapy in Stage II Colorectal Cancer. eBioMedicine. 2025;117. https://doi.org/10.1016/j.ebiom.2025.105789

5. Heydari M., Sarshar R., Soltanshahi M.A. Distributed Record Linkage in Healthcare Data with Apache Spark. arXiv. URL: https://arxiv.org/abs/2404.07939 [Accessed 21st November 2025].

6. Deshpande P., Rasin A., Tchoua R. Biomedical Heterogeneous Data Categorization and Schema Mapping Toward Data Integration. Frontiers in Big Data. 2023;6. https://doi.org/10.3389/fdata.2023.1173038

7. Acosta J.N., Falcone G.J., Rajpurkar P., Topol E.J. Multimodal Biomedical AI. Nature Medicine. 2022;28(9):1773–1784. https://doi.org/10.1038/s41591-022-01981-2

8. Musik S., Sasin-Kurowska J., Panczyk M. Bridging the Past and Future of Clinical Data Management: The Transformative Impact of Artificial Intelligence. Open Access Journal of Clinical Trials. 2025;17:15–33. https://doi.org/10.2147/OAJCT.S509921

9. Hagan N.K.A., Talburt J.R. SparkDWM: A Scalable Design of a Data Washing Machine Using Apache Spark. Frontiers in Big Data. 2024;7. https://doi.org/10.3389/fdata.2024.1446071

10. Valo P., Tran A., Baranton E., Haas H., Freyssinet E., Vrzáková H. Clinical Data Integration and Processing Challenges in Healthcare Caused by Contemporary Software Design. Digital Health. 2025;11. https://doi.org/10.1177/20552076251374233

11. Shrotriya L., Sharma K., Parashar D., Mishra K., Singh Rawat S., Pagare H. Apache Spark in Healthcare: Advancing Data-Driven Innovations and Better Patient Care. International Journal of Advanced Computer Science and Applications. 2023;14(6):608–616. https://doi.org/10.14569/IJACSA.2023.0140665

12. Tu Y., Lu Y., Chen G., Zhao J., Yi F. Architecture Design of Distributed Medical Big Data Platform Based on Spark. In: 2019 IEEE 8th Joint International Information Technology and Artificial Intelligence Conference (ITAIC), 24–26 May 2019, Chongqing, China. IEEE; 2019. P. 682–685. https://doi.org/10.1109/ITAIC.2019.8785620

Пожарский Роман Витальевич

Воронежский институт высоких технологий

Воронеж, Российская Федерация

Петрова Елена Сергеевна

Воронежский государственный технический университет

Воронеж, Российская Федерация

Ключевые слова: мультимодальные медицинские данные, системный анализ, распределенная обработка данных, apache Spark, интеллектуальные системы, диагностика, гибридная архитектура, большие данные

Для цитирования: Пожарский Р.В., Петрова Е.С. Подход к построению распределённой аналитической платформы для мультимодальных медицинских данных в задачах клинической диагностики. Моделирование, оптимизация и информационные технологии. 2025;13(4). URL: https://moitvivt.ru/ru/journal/pdf?id=2141 DOI: 10.26102/2310-6018/2025.51.4.069

16

Полный текст статьи в PDF

Поступила в редакцию 27.11.2025

Поступила после рецензирования 19.12.2025

Принята к публикации 25.12.2025

Опубликована 31.12.2025