Ключевые слова: глубокое обучение, vision Transformer, swin Transformer, convNeXt, заболевания сетчатки, grad-CAM
Сравнительное исследование архитектур глубокого обучения для интерпретируемой диагностики заболеваний сетчатки
УДК 004.932.2
DOI: 10.26102/2310-6018/2026.53.2.016
Интерпретируемость решений глубокого обучения является важнейшим требованием при их применении в медицинской диагностике. В работе проведен сравнительный анализ трех современных нейросетевых архитектур: Vision Transformer (ViT), Swin Transformer и ConvNeXt для мультиклассовой классификации заболеваний сетчатки по изображениям оптической когерентной томографии (OCT). Исследование выполнено на открытом наборе данных OCTDL, содержащем 2064 изображения семи диагностических категорий с выраженным дисбалансом классов. Для компенсации дисбаланса применена стратегия взвешивания функции потерь. Все три модели достигли валидационной точности выше 0,91, при этом ConvNeXt показала наилучший результат (0,945) с оптимальным балансом чувствительности и специфичности, особенно для редких патологий. Интерпретируемость решений оценивалась с помощью метода Grad-CAM, визуализации весов внимания и модельно-независимого метода LIME. Анализ выявил, что ConvNeXt в сочетании с Grad-CAM обеспечивает наиболее надежную локализацию клинически значимых признаков, тогда как карты внимания ViT и активации Swin Transformer часто оказывались размытыми или фокусировались на неинформативных областях. Полученные результаты подтверждают преимущество ConvNeXt как наиболее перспективной архитектуры для клинического внедрения в офтальмологическую диагностику благодаря сочетанию высокой точности, интерпретируемости и умеренных вычислительных требований.
1. Куракина В.М., Витушкина Е.В. Оптическая когерентная томография. Клиническая геронтология. 2010;16(9-10):44.
2. Kermany D.S., Goldbaum M., Cai W., et al. Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell. 2018;172(5):1122–1131. https://doi.org/10.1016/j.cell.2018.02.010
3. Naim K., Darouichi A. Deep Learning-Based Classification of Retinal Pathologies. Statistics, Optimization and Information Computing. 2025;15(2):1226–1235. https://doi.org/10.19139/soic-2310-5070-2767
4. He J., Wang J., Han Z., Ma J., Wang Ch., Qi M. An interpretable transformer network for the retinal disease classification using optical coherence tomography. Scientific Reports. 2023;13. https://doi.org/10.1038/s41598-023-30853-z
5. Kulyabin M., Zhdanov A., Nikiforova A., et al. OCTDL: Optical Coherence Tomography Dataset for Image-Based Deep Learning Methods. Scientific Data. 2024;11. https://doi.org/10.1038/s41597-024-03182-7
6. Dosovitskiy A., Beyer L., Kolesnikov A., et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In: 9th International Conference on Learning Representations, ICLR 2021, 03–07 May 2021, Virtual Event, Austria. 2021. https://doi.org/10.48550/arXiv.2010.11929
7. Liu Z., Lin Y., Cao Y., et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. In: 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 10–17 October 2021, Montreal, QC, Canada. IEEE; 2021. P. 9992–10002. https://doi.org/10.1109/ICCV48922.2021.00986
8. Liu Zh., Mao H., Wu Ch.-Y., et al. A ConvNet for the 2020s. In: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18–24 June 2022, New Orleans, LA, USA. IEEE; 2022. P. 11966–11976. https://doi.org/10.1109/CVPR52688.2022.01167
9. Yengec-Tasdemir S.B., Akay E., Dogan S., Yilmaz B. Classification of Colorectal Polyps from Histopathological Images using Ensemble of ConvNeXt Variants. [Preprint]. Research Square. URL: https://doi.org/10.21203/rs.3.rs-1791422/v1 [Accessed 12th January 2026].
10. Selvaraju R.R., Cogswell M., Das A., Vedantam R., Parikh D., Batra D. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. In: 2017 IEEE International Conference on Computer Vision (ICCV), 22–29 October 2017, Venice, Italy. IEEE; 2017. P. 618–626. https://doi.org/10.1109/ICCV.2017.74
11. Ribeiro M.T., Singh S., Guestrin C. "Why Should I Trust You?": Explaining the Predictions of Any Classifier. In: KDD '16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 13–17 August 2016, San Francisco, CA, USA. New York: Association for Computing Machinery; 2016. P. 1135–1144. https://doi.org/10.1145/2939672.2939778
12. Черемискин А.В., Каширина И.Л. Сегментация мультифазных КТ-изображений с использованием ансамбля моделей ResUNet. Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2025;(3):140–152. https://doi.org/10.17308/sait/1995-5499/2025/3/140-152
Ключевые слова: глубокое обучение, vision Transformer, swin Transformer, convNeXt, заболевания сетчатки, grad-CAM
Для цитирования: Мирошниченко В.В., Каширина И.Л. Сравнительное исследование архитектур глубокого обучения для интерпретируемой диагностики заболеваний сетчатки. Моделирование, оптимизация и информационные технологии. 2026;14(2). URL: https://moitvivt.ru/ru/journal/pdf?id=2195 DOI: 10.26102/2310-6018/2026.53.2.016
Поступила в редакцию 31.01.2026
Поступила после рецензирования 22.02.2026
Принята к публикации 26.02.2026
Опубликована 28.02.2026