References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2026.53.2.016

2195

Сравнительное исследование архитектур глубокого обучения для интерпретируемой диагностики заболеваний сетчатки

A comparative study of deep learning architectures for interpretable diagnosis of retinal diseases

Мирошниченко

Виктор Вячеславович

Miroshnichenko

Viktor Vyacheslavovich

mr.vit.mir@mail.ru aff-1

0000-0002-8664-9817

Каширина

Ирина Леонидовна

Kashirina

Irina Leonidovna

kash.irina@mail.ru aff-2

МИРЭА - Российский технологический университет MIREA – Russian Technological University

01 01 2026

1 1

10.26102/2310-6018/2026.53.2.016

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

Интерпретируемость решений глубокого обучения является важнейшим требованием при их применении в медицинской диагностике. В работе проведен сравнительный анализ трех современных нейросетевых архитектур: Vision Transformer (ViT), Swin Transformer и ConvNeXt для мультиклассовой классификации заболеваний сетчатки по изображениям оптической когерентной томографии (OCT). Исследование выполнено на открытом наборе данных OCTDL, содержащем 2064 изображения семи диагностических категорий с выраженным дисбалансом классов. Для компенсации дисбаланса применена стратегия взвешивания функции потерь. Все три модели достигли валидационной точности выше 0,91, при этом ConvNeXt показала наилучший результат (0,945) с оптимальным балансом чувствительности и специфичности, особенно для редких патологий. Интерпретируемость решений оценивалась с помощью метода Grad-CAM, визуализации весов внимания и модельно-независимого метода LIME. Анализ выявил, что ConvNeXt в сочетании с Grad-CAM обеспечивает наиболее надежную локализацию клинически значимых признаков, тогда как карты внимания ViT и активации Swin Transformer часто оказывались размытыми или фокусировались на неинформативных областях. Полученные результаты подтверждают преимущество ConvNeXt как наиболее перспективной архитектуры для клинического внедрения в офтальмологическую диагностику благодаря сочетанию высокой точности, интерпретируемости и умеренных вычислительных требований.

Interpretability of deep learning decisions remains a critical requirement for their application in medical diagnostics. This study presents a comparative analysis of three modern neural network architectures—Vision Transformer (ViT), Swin Transformer, and ConvNeXt – for multiclass classification of retinal diseases using optical coherence tomography (OCT) images. The research was conducted on the open OCTDL dataset containing 2.064 images across seven diagnostic categories with pronounced class imbalance. To compensate for this imbalance, a loss function weighting strategy was employed. All three models achieved validation accuracy exceeding 0.91, with ConvNeXt demonstrating the best performance (0.945) and an optimal balance of sensitivity and specificity, particularly for rare pathologies. Model interpretability was evaluated using Grad-CAM, attention weight visualization, and the model-agnostic LIME method. The analysis revealed that ConvNeXt combined with Grad-CAM provides the most reliable localization of clinically significant features, whereas ViT attention maps and Swin Transformer activation maps often appeared blurred or focused on non-informative regions. The results confirm the advantage of ConvNeXt as the most promising architecture for clinical deployment in ophthalmological diagnostics, owing to its combination of high accuracy, interpretability, and moderate computational requirements.

глубокое обучение Vision Transformer Swin Transformer ConvNeXt заболевания сетчатки Grad-CAM

deep learning Vision Transformer Swin Transformer ConvNeXt retinal diseases Grad-CAM

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Куракина В.М., Витушкина Е.В. Оптическая когерентная томография. Клиническая геронтология. 2010;16(9-10):44.

Kermany D.S., Goldbaum M., Cai W., et al. Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell. 2018;172(5):1122–1131. https://doi.org/10.1016/j.cell.2018.02.010

Naim K., Darouichi A. Deep Learning-Based Classification of Retinal Pathologies. Statistics, Optimization and Information Computing. 2025;15(2):1226–1235. https://doi.org/10.19139/soic-2310-5070-2767

He J., Wang J., Han Z., Ma J., Wang Ch., Qi M. An interpretable transformer network for the retinal disease classification using optical coherence tomography. Scientific Reports. 2023;13. https://doi.org/10.1038/s41598-023-30853-z

Kulyabin M., Zhdanov A., Nikiforova A., et al. OCTDL: Optical Coherence Tomography Dataset for Image-Based Deep Learning Methods. Scientific Data. 2024;11. https://doi.org/10.1038/s41597-024-03182-7

Dosovitskiy A., Beyer L., Kolesnikov A., et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In: 9th International Conference on Learning Representations, ICLR 2021, 03–07 May 2021, Virtual Event, Austria. 2021. https://doi.org/10.48550/arXiv.2010.11929

Liu Z., Lin Y., Cao Y., et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. In: 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 10–17 October 2021, Montreal, QC, Canada. IEEE; 2021. P. 9992–10002. https://doi.org/10.1109/ICCV48922.2021.00986

Liu Zh., Mao H., Wu Ch.-Y., et al. A ConvNet for the 2020s. In: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18–24 June 2022, New Orleans, LA, USA. IEEE; 2022. P. 11966–11976. https://doi.org/10.1109/CVPR52688.2022.01167

Yengec-Tasdemir S.B., Akay E., Dogan S., Yilmaz B. Classification of Colorectal Polyps from Histopathological Images using Ensemble of ConvNeXt Variants. [Preprint]. Research Square. URL: https://doi.org/10.21203/rs.3.rs-1791422/v1 [Accessed 12th January 2026].

Selvaraju R.R., Cogswell M., Das A., Vedantam R., Parikh D., Batra D. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. In: 2017 IEEE International Conference on Computer Vision (ICCV), 22–29 October 2017, Venice, Italy. IEEE; 2017. P. 618–626. https://doi.org/10.1109/ICCV.2017.74

Ribeiro M.T., Singh S., Guestrin C. "Why Should I Trust You?": Explaining the Predictions of Any Classifier. In: KDD '16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 13–17 August 2016, San Francisco, CA, USA. New York: Association for Computing Machinery; 2016. P. 1135–1144. https://doi.org/10.1145/2939672.2939778

Черемискин А.В., Каширина И.Л. Сегментация мультифазных КТ-изображений с использованием ансамбля моделей ResUNet. Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2025;(3):140–152. https://doi.org/10.17308/sait/1995-5499/2025/3/140-152

The authors declare that there are no conflicts of interest present.