Ключевые слова: мультимодальный анализ, вариационный вывод, семантическое выравнивание, распределенные вычисления, обучение с подкреплением, медицинские данные, DICOM, MLOps
УДК 004.89:616-073
DOI: 10.26102/2310-6018/2026.56.5.010
В статье представлена архитектура распределенной системы для интеллектуального анализа мультимодальных медицинских данных (изображений DICOM и текстовых отчетов), сочетающая теоретические методы вариационного вывода с современными инженерными практиками MLOps. Ключевой проблемой, решаемой в работе, является интеграция разнородных данных (визуализационных исследований в формате DICOM и текстовых клинических отчетов) в условиях реальных ограничений по времени и мощности. Основной научный вклад заключается в формализации и реализации нового критерия семантического выравнивания, обусловленного по отношению к ненаблюдаемым клинически значимым латентным факторам. Данный критерий, максимизируемый с помощью вариационного вывода (Evidence Lower Bound), обеспечивает глубокую интеграцию модальностей на основе общей патофизиологической основы, а не поверхностных корреляций. С практической стороны разработана и развернута отказоустойчивая распределенная инфраструктура на базе Docker, Apache Spark, MinIO и MLflow, обеспечивающая полный жизненный цикл данных – от хранения и распределенной обработки до трекинга экспериментов. Для адаптивного управления нагрузкой предложен и реализован контроллер на основе обучения с подкреплением (Reinforcement Learning), формализующий задачу маршрутизации пациентов между быстрым (детерминированные алгоритмы) и глубоким (полноценные модели ViT+BERT) конвейерами как проблему частично наблюдаемого марковского процесса принятия решений (POMDP). Представлен и реализован архитектурный каркас (framework) и математическая модель вариационного семантического выравнивания. Проведенные эксперименты на синтетических данных подтвердили корректность программной реализации в среде WSL2/Docker и эффективность взаимодействия компонентов Spark и MinIO. Следующим этапом исследований станет масштабирование системы на полный набор данных MIMIC-CXR для клинической валидации предложенных гипотез.
1. Basystiuk O., Melnykova N. Multimodal Medical Data Learning Approaches for Digital Healthcare. In: Proceedings of the 6th International Conference on Informatics & Data-Driven Medicine, 17–19 November 2023, Bratislava, Slovakia. CEUR Workshop Proceedings; 2024. P. 332–337.
2. Ярушкина Н.Г., Андреев И.А., Гуськов Г.Ю. и др. Интеллектуальный предиктивный мультимодальный анализ слабоструктурированных больших данных. Ульяновск: УлГТУ; 2020. 220 с.
3. Bhosekar Sh., Singh P., Garg D., Ravi V., Diwakar M. A Review of Deep Learning-based Multi-modal Medical Image Fusion. The Open Bioinformatics Journal. 2025;18. https://doi.org/10.2174/0118750362370697250630063814
4. Guo Z., Li X., Huang H., Guo N., Li Q. Deep Learning-based Image Segmentation on Multimodal Medical Imaging. IEEE Transactions on Radiation and Plasma Medical Sciences. 2019;3(2):162–169. https://doi.org/10.1109/TRPMS.2018.2890359
5. Tunstall L., von Werra L., Wolf Th. Natural Language Processing with Transformers: Building Language Applications with Hugging Face. Sebastopol: O'Reilly Media; 2022. 479 p.
6. Johnson A.E.W., Pollard T.J., Berkowitz S.J., et al. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. Scientific Data. 2019;6. https://doi.org/10.1038/s41597-019-0322-0
7. Бондаренко А.С., Зайцев К.С. Управление контейнерами при построении распределенных систем с микросервисной архитектурой. International Journal of Open Information Technologies. 2023;11(8):17–23.
8. Разумовский Д.А., Волков Д.Д., Стучилин В.В. Архитектура системы сбора и хранения метрик использования ресурсов Spark-приложений в кластерных системах обработки больших данных. Международный научно-исследовательский журнал. 2025;(12). https://doi.org/10.60797/IRJ.2025.162.81
9. Хомоненко А.Д., Абу Хасан Р. О надежности и доступности объектных хранилищ данных. Интеллектуальные технологии на транспорте. 2023;(S1):123–128.
10. Стариков А.Е., Намиот Д.Е. Система выполнения моделей машинного обучения на потоке событий. International Journal of Open Information Technologies. 2020;8(7):57–75.
Ключевые слова: мультимодальный анализ, вариационный вывод, семантическое выравнивание, распределенные вычисления, обучение с подкреплением, медицинские данные, DICOM, MLOps
Для цитирования: Пожарский Р.В., Рындин А.А. Архитектура распределенной системы мультимодального анализа медицинских данных на основе вариационного семантического выравнивания. Моделирование, оптимизация и информационные технологии. 2026;14(5). URL: https://moitvivt.ru/ru/journal/article?id=2229 DOI: 10.26102/2310-6018/2026.56.5.010
© Пожарский Р.В., Рындин А.А. Статья опубликована на условиях лицензии Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NS 4.0)Поступила в редакцию 15.02.2026
Поступила после рецензирования 17.04.2026
Принята к публикации 11.05.2026