References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2026.55.4.020

2232

Моделирование и оптимизация процесса сбора данных для искусственного интеллекта в медицине

Modeling and optimization of data collection process for artificial intelligence in medicine

0000-0001-7766-3011

Иващенко

Антон Владимирович

Ivaschenko

Anton Vladimirovich

anton.ivashenko@gmail.com aff-1

0009-0004-1127-0978

Терехин

Михаил Александрович

Terekhin

Mikhail Aleksandrovich

terexin.m.a@yandex.ru aff-2

0000-0002-3131-1368

Порецкова

Галина Юрьевна

Poretskova

Galina Yuryevna

aff-3

0009-0001-4497-4216

Жданович

Герман Эдуардович

Zhdanovich

German Eduardovich

aff-4

0009-0005-8611-0204

Мельников

Денис Алексеевич

Melnikov

Denis Alexeyevich

aff-5

0009-0005-5291-1791

Радаев

Дмитрий Евгеньевич

Radaev

Dmitry Evgenievich

aff-6

Самарский государственный медицинский университет Samara State Medical University

Приволжский государственный университет путей сообщения Volga State Transport University

Пензенский государственный технологический университет Penza State Technological University

01 01 2026

1 1

10.26102/2310-6018/2026.55.4.020

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

Развитие технологий искусственного интеллекта в медицине требует реализации системного подхода по сбору и обработке структурированных наборов данных (датасетов) для обучения, тестирования и валидации моделей машинного обучения. В статье предложено решение этой задачи путем имитационного моделирования на основе теории массового обслуживания, в ходе которого необходимо оценить плановую пропускную способность каждой точки сбора информации, обеспечение достаточного количества пациентов, доступности и достоверности их медицинской информации, обеспечение требований законодательства в части защиты персональных данных и врачебной этики. Исследование предложенного подхода было произведено на примере анализа процессов сбора биомедицинских данных, предназначенных для обучения моделей искусственного интеллекта методам дистанционной диагностики. Эмпирическая часть исследования проводилась на базе пунктов сбора биомедицинских сигналов в течение шести месяцев. Общий объём выборки составил 574 пациента. В рамках исследования была построена имитационная модель, позволившая провести оптимизацию процесса сбора данных. По данным имитационного моделирования средняя интенсивность сбора данных составила 7,28 пациента в день при выраженной вариативности нагрузки. В ходе оптимизации были произведены изменения в процессе сбора данных путем распараллеливания, что позволило повысить производительность за счет сокращения времени на анкетирование и термометрию и увеличения входящего потока пациентов. Проведенная оптимизация процесса сбора данных позволила повысить интенсивность работы с 4,67 до 12,12 пациентов в день. Предложенный подход позволяет обосновать архитектуру организационно-технологического процесса сбора информации до начала масштабирования и минимизировать риски превышения календарных сроков формирования медицинских датасетов.

Development of Artificial Intelligence technologies in medicine requires a systematic approach to collecting and processing structured datasets for training, testing, and validating machine learning models. This paper proposes a solution to this problem through simulation modeling based on queueing theory. This modeling requires estimating the planned throughput of each data collection point, ensuring a sufficient number of patients, the availability and reliability of their medical information, and meeting legal requirements regarding personal data protection and medical ethics. The proposed approach was studied using the analysis of biomedical data collection processes designed to train artificial intelligence models for remote diagnostic methods. The empirical part of the study was conducted at biomedical signal collection points over a six-month period. The total sample size was 574 patients. A simulation model was developed to optimize the data collection process. According to the simulation modeling, the average data collection intensity was 7.28 patients per day with significant variability in the workload. During the optimization process, changes were made to the data collection process through parallelization, which increased productivity by reducing the time spent on questionnaires and temperature measurements and increasing patient throughput. The optimization of the data collection process increased the workload from 4.67 to 12.12 patients per day. The proposed approach allows us to validate the architecture of the organizational and technological process for data collection before scaling and minimizes the risk of exceeding the schedule deadlines for generating medical datasets.

медицинский датасет имитационное моделирование теория массового обслуживания цифровой двойник пропускная способность искусственный интеллект

medical dataset simulation modeling queueing theory digital twin throughput artificial intelligence

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Решетников Р.В., Тыров И.А., Васильев Ю.А. и др. Методики оценки качества больших генеративных моделей для базовых сценариев применения в здравоохранении. Врач и информационные технологии. 2025;(3):64–75. https://doi.org/10.25881/18110193_2025_3_64

Васильев Ю.А., Бобровская Т.М., Арзамасов К.М. и др. Основополагающие принципы стандартизации и систематизации информации о наборах данных для машинного обучения в медицинской диагностике. Менеджер здравоохранения. 2023;(4):28–41. https://doi.org/10.21045/1811-0185-2023-4-28-41

Шарова Д.Е., Михайлова А.А., Гусев А.В. и др. Анализ мирового опыта в регулировании использования медицинских данных для целей создания систем искусственного интеллекта на основе машинного обучения. Врач и информационные технологии. 2022;(4):28–39. https://doi.org/10.25881/18110193_2022_4_28

Arora A., Alderman J.E., Palmer J., et al. The value of standards for health datasets in artificial intelligence-based applications. Nature Medicine. 2023;29(11):2929–2938. https://doi.org/10.1038/s41591-023-02608-w

Schwabe D., Becker K., Seyferth M., Klaß A., Schaeffter T. The METRIC-framework for assessing data quality for trustworthy AI in medicine: a systematic review. npj Digital Medicine. 2024;7(1). https://doi.org/10.1038/s41746-024-01196-4

Kim J.-W., Kim Ch., Kim K.-H., et al. Scalable Infrastructure Supporting Reproducible Nationwide Healthcare Data Analysis toward FAIR Stewardship. Scientific Data. 2023;10(1). https://doi.org/10.1038/s41597-023-02580-7

Барсегян Н.В., Галимулина Ф.Ф. Цифровое моделирование и оптимизация экономических систем: теория массового обслуживания и анализ данных. Курск: Университетская книга; 2025. 82 с.

Слободняк И.А., Антипина П.В. Оптимизация организации работы сервисных служб с использованием теории управления системами массового обслуживания. Экономика и управление: проблемы, решения. 2020;1(12):19–24. https://doi.org/10.36871/ek.up.p.r.2020.12.01.004

Полухин П.В. Применение методов теории массового обслуживания для оценки параметров синхронизации распределенных вычислительных систем. Моделирование, оптимизация и информационные технологии. 2022;10(2). https://doi.org/10.26102/2310-6018/2022.37.2.028

Третьякова М.Е., Смакуев А.Д., Филатов В.В. Проектирование процесса оказания услуг на основе методов теории массового обслуживания. Прикладные экономические исследования. 2022;(2):24–31. https://doi.org/10.47576/2313-2086_2022_2_24

Touré V., Krauss Ph., Gnodtke K., et al. FAIRification of health-related data using semantic web technologies in the Swiss Personalized Health Network. Scientific Data. 2023;10. https://doi.org/10.1038/s41597-023-02028-y

Fun W.H., Tan E.H., Khalid R., et al. Applying Discrete Event Simulation to Reduce Patient Wait Times and Crowding: The Case of a Specialist Outpatient Clinic with Dual Practice System. Healthcare. 2022;10(2). https://doi.org/10.3390/healthcare10020189

Vecillas Martin D., Berruezo Fernández Ch., Gento Municio A.M. Systematic Review of Discrete Event Simulation in Healthcare and Statistics Distributions. Applied Sciences. 2025;15(4). https://doi.org/10.3390/app15041861

Di Pumpo M., Ianni A., Miccoli G.A., et al. Queueing Theory and COVID-19 Prevention: Model Proposal to Maximize Safety and Performance of Vaccination Sites. Frontiers in Public Health. 2022;10. https://doi.org/10.3389/fpubh.2022.840677

Kuruppu Appuhamilage G.D.K., Hussain M., Zaman M., Khan W.A. A health digital twin framework for discrete event simulation based optimised critical care workflows. npj Digital Medicine. 2025;8(1). https://doi.org/10.1038/s41746-025-01738-4

Declerck J., Kalra D., Vander Stichele R., Coorevits P. Frameworks, Dimensions, Definitions of Aspects, and Assessment Methods for the Appraisal of Quality of Health Data for Secondary Use: Comprehensive Overview of Reviews. JMIR Medical Informatics. 2024;12. https://doi.org/10.2196/51560

The authors declare that there are no conflicts of interest present.