References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2026.56.5.010

2229

Архитектура распределенной системы мультимодального анализа медицинских данных на основе вариационного семантического выравнивания

Architecture of a distributed multimodal medical data analysis system based on variational semantic alignment

Пожарский

Роман Витальевич

Pozharsky

Roman Vitalievich

pozharskij2013@mail.ru aff-1

0000-0001-6861-9297

Рындин

Александр Алексеевич

Ryndin

Alexandr Alexeevich

office@vivt.ru aff-2

Воронежский институт высоких технологий Voronezh Institute of High Technologies

01 01 2026

1 1

10.26102/2310-6018/2026.56.5.010

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

В статье представлена архитектура распределенной системы для интеллектуального анализа мультимодальных медицинских данных (изображений DICOM и текстовых отчетов), сочетающая теоретические методы вариационного вывода с современными инженерными практиками MLOps. Ключевой проблемой, решаемой в работе, является интеграция разнородных данных (визуализационных исследований в формате DICOM и текстовых клинических отчетов) в условиях реальных ограничений по времени и мощности. Основной научный вклад заключается в формализации и реализации нового критерия семантического выравнивания, обусловленного по отношению к ненаблюдаемым клинически значимым латентным факторам. Данный критерий, максимизируемый с помощью вариационного вывода (Evidence Lower Bound), обеспечивает глубокую интеграцию модальностей на основе общей патофизиологической основы, а не поверхностных корреляций. С практической стороны разработана и развернута отказоустойчивая распределенная инфраструктура на базе Docker, Apache Spark, MinIO и MLflow, обеспечивающая полный жизненный цикл данных – от хранения и распределенной обработки до трекинга экспериментов. Для адаптивного управления нагрузкой предложен и реализован контроллер на основе обучения с подкреплением (Reinforcement Learning), формализующий задачу маршрутизации пациентов между быстрым (детерминированные алгоритмы) и глубоким (полноценные модели ViT+BERT) конвейерами как проблему частично наблюдаемого марковского процесса принятия решений (POMDP). Представлен и реализован архитектурный каркас (framework) и математическая модель вариационного семантического выравнивания. Проведенные эксперименты на синтетических данных подтвердили корректность программной реализации в среде WSL2/Docker и эффективность взаимодействия компонентов Spark и MinIO. Следующим этапом исследований станет масштабирование системы на полный набор данных MIMIC-CXR для клинической валидации предложенных гипотез.

The article presents the architecture of a distributed system for intelligent analysis of multimodal medical data (DICOM images and text reports), combining theoretical methods of variational inference with modern MLOps engineering practices. The key problem addressed is the integration of heterogeneous data (DICOM imaging studies and text clinical reports) under real-world time and computational constraints. The main scientific contribution lies in the formalization and implementation of a new semantic alignment criterion conditioned on unobserved clinically significant latent factors. This criterion, maximized using variational inference (Evidence Lower Bound), ensures deep integration of modalities based on a common pathophysiological basis rather than superficial correlations. On the practical side, a fault-tolerant distributed infrastructure based on Docker, Apache Spark, MinIO, and MLflow has been developed and deployed, providing a complete data lifecycle –from storage and distributed processing to experiment tracking. For adaptive load management, a reinforcement learning-based controller is proposed and implemented, formalizing patient routing between fast (deterministic algorithms) and deep (full ViT+BERT models) pipelines as a partially observable Markov decision process (POMDP). The architectural framework and mathematical model of variational semantic alignment are presented. Experiments on synthetic data confirmed the correctness of the software implementation in the WSL2/Docker environment and the efficient interaction of Spark and MinIO components. The next stage of research will be scaling the system to the full MIMIC-CXR dataset for clinical validation of the proposed hypotheses.

мультимодальный анализ вариационный вывод семантическое выравнивание распределенные вычисления обучение с подкреплением медицинские данные DICOM MLOps

multimodal analysis variational inference semantic alignment distributed computing reinforcement learning medical data DICOM MLOps

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Basystiuk O., Melnykova N. Multimodal Medical Data Learning Approaches for Digital Healthcare. In: Proceedings of the 6th International Conference on Informatics & Data-Driven Medicine, 17–19 November 2023, Bratislava, Slovakia. CEUR Workshop Proceedings; 2024. P. 332–337.

Ярушкина Н.Г., Андреев И.А., Гуськов Г.Ю. и др. Интеллектуальный предиктивный мультимодальный анализ слабоструктурированных больших данных. Ульяновск: УлГТУ; 2020. 220 с.

Bhosekar Sh., Singh P., Garg D., Ravi V., Diwakar M. A Review of Deep Learning-based Multi-modal Medical Image Fusion. The Open Bioinformatics Journal. 2025;18. https://doi.org/10.2174/0118750362370697250630063814

Guo Z., Li X., Huang H., Guo N., Li Q. Deep Learning-based Image Segmentation on Multimodal Medical Imaging. IEEE Transactions on Radiation and Plasma Medical Sciences. 2019;3(2):162–169. https://doi.org/10.1109/TRPMS.2018.2890359

Tunstall L., von Werra L., Wolf Th. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. Sebastopol: O'Reilly Media; 2022. 479 p.

Johnson A.E.W., Pollard T.J., Berkowitz S.J., et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Scientific Data. 2019;6. https://doi.org/10.1038/s41597-019-0322-0

Бондаренко А.С., Зайцев К.С. Управление контейнерами при построении распределенных систем с микросервисной архитектурой. International Journal of Open Information Technologies. 2023;11(8):17–23.

Разумовский Д.А., Волков Д.Д., Стучилин В.В. Архитектура системы сбора и хранения метрик использования ресурсов Spark-приложений в кластерных системах обработки больших данных. Международный научно-исследовательский журнал. 2025;(12). https://doi.org/10.60797/IRJ.2025.162.81

Хомоненко А.Д., Абу Хасан Р. О надежности и доступности объектных хранилищ данных. Интеллектуальные технологии на транспорте. 2023;(S1):123–128.

Стариков А.Е., Намиот Д.Е. Система выполнения моделей машинного обучения на потоке событий. International Journal of Open Information Technologies. 2020;8(7):57–75.

The authors declare that there are no conflicts of interest present.