<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2026.53.2.016</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">2195</article-id>
      <title-group>
        <article-title xml:lang="ru">Сравнительное исследование архитектур глубокого обучения для интерпретируемой диагностики заболеваний сетчатки</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>A comparative study of deep learning architectures for interpretable diagnosis of retinal diseases</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Мирошниченко</surname>
              <given-names>Виктор Вячеславович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Miroshnichenko</surname>
              <given-names>Viktor Vyacheslavovich</given-names>
            </name>
          </name-alternatives>
          <email>mr.vit.mir@mail.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0000-0002-8664-9817</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Каширина</surname>
              <given-names>Ирина Леонидовна</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Kashirina</surname>
              <given-names>Irina Leonidovna</given-names>
            </name>
          </name-alternatives>
          <email>kash.irina@mail.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">МИРЭА - Российский технологический университет</aff>
        <aff xml:lang="en">MIREA – Russian Technological University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">МИРЭА - Российский технологический университет</aff>
        <aff xml:lang="en">MIREA – Russian Technological University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2026.53.2.016</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=2195"/>
      <abstract xml:lang="ru">
        <p>Интерпретируемость решений глубокого обучения является важнейшим требованием при их применении в медицинской диагностике. В работе проведен сравнительный анализ трех современных нейросетевых архитектур: Vision Transformer (ViT), Swin Transformer и ConvNeXt для мультиклассовой классификации заболеваний сетчатки по изображениям оптической когерентной томографии (OCT). Исследование выполнено на открытом наборе данных OCTDL, содержащем 2064 изображения семи диагностических категорий с выраженным дисбалансом классов. Для компенсации дисбаланса применена стратегия взвешивания функции потерь. Все три модели достигли валидационной точности выше 0,91, при этом ConvNeXt показала наилучший результат (0,945) с оптимальным балансом чувствительности и специфичности, особенно для редких патологий. Интерпретируемость решений оценивалась с помощью метода Grad-CAM, визуализации весов внимания и модельно-независимого метода LIME. Анализ выявил, что ConvNeXt в сочетании с Grad-CAM обеспечивает наиболее надежную локализацию клинически значимых признаков, тогда как карты внимания ViT и активации Swin Transformer часто оказывались размытыми или фокусировались на неинформативных областях. Полученные результаты подтверждают преимущество ConvNeXt как наиболее перспективной архитектуры для клинического внедрения в офтальмологическую диагностику благодаря сочетанию высокой точности, интерпретируемости и умеренных вычислительных требований.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>Interpretability of deep learning decisions remains a critical requirement for their application in medical diagnostics. This study presents a comparative analysis of three modern neural network architectures—Vision Transformer (ViT), Swin Transformer, and ConvNeXt – for multiclass classification of retinal diseases using optical coherence tomography (OCT) images. The research was conducted on the open OCTDL dataset containing 2.064 images across seven diagnostic categories with pronounced class imbalance. To compensate for this imbalance, a loss function weighting strategy was employed. All three models achieved validation accuracy exceeding 0.91, with ConvNeXt demonstrating the best performance (0.945) and an optimal balance of sensitivity and specificity, particularly for rare pathologies. Model interpretability was evaluated using Grad-CAM, attention weight visualization, and the model-agnostic LIME method. The analysis revealed that ConvNeXt combined with Grad-CAM provides the most reliable localization of clinically significant features, whereas ViT attention maps and Swin Transformer activation maps often appeared blurred or focused on non-informative regions. The results confirm the advantage of ConvNeXt as the most promising architecture for clinical deployment in ophthalmological diagnostics, owing to its combination of high accuracy, interpretability, and moderate computational requirements.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>глубокое обучение</kwd>
        <kwd>Vision Transformer</kwd>
        <kwd>Swin Transformer</kwd>
        <kwd>ConvNeXt</kwd>
        <kwd>заболевания сетчатки</kwd>
        <kwd>Grad-CAM</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>deep learning</kwd>
        <kwd>Vision Transformer</kwd>
        <kwd>Swin Transformer</kwd>
        <kwd>ConvNeXt</kwd>
        <kwd>retinal diseases</kwd>
        <kwd>Grad-CAM</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Куракина В.М., Витушкина Е.В. Оптическая когерентная томография. Клиническая геронтология. 2010;16(9-10):44.</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Kermany D.S., Goldbaum M., Cai W., et al. Identifying medical diagnoses and treatable diseases by image-based deep learning. Cell. 2018;172(5):1122–1131. https://doi.org/10.1016/j.cell.2018.02.010</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Naim K., Darouichi A. Deep Learning-Based Classification of Retinal Pathologies. Statistics, Optimization and Information Computing. 2025;15(2):1226–1235. https://doi.org/10.19139/soic-2310-5070-2767</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">He J., Wang J., Han Z., Ma J., Wang Ch., Qi M. An interpretable transformer network for the retinal disease classification using optical coherence tomography. Scientific Reports. 2023;13. https://doi.org/10.1038/s41598-023-30853-z</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Kulyabin M., Zhdanov A., Nikiforova A., et al. OCTDL: Optical Coherence Tomography Dataset for Image-Based Deep Learning Methods. Scientific Data. 2024;11. https://doi.org/10.1038/s41597-024-03182-7</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Dosovitskiy A., Beyer L., Kolesnikov A., et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In: 9th International Conference on Learning Representations, ICLR 2021, 03–07 May 2021, Virtual Event, Austria. 2021. https://doi.org/10.48550/arXiv.2010.11929</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Liu Z., Lin Y., Cao Y., et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. In: 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 10–17 October 2021, Montreal, QC, Canada. IEEE; 2021. P. 9992–10002. https://doi.org/10.1109/ICCV48922.2021.00986</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Liu Zh., Mao H., Wu Ch.-Y., et al. A ConvNet for the 2020s. In: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18–24 June 2022, New Orleans, LA, USA. IEEE; 2022. P. 11966–11976. https://doi.org/10.1109/CVPR52688.2022.01167</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Yengec-Tasdemir S.B., Akay E., Dogan S., Yilmaz B. Classification of Colorectal Polyps from Histopathological Images using Ensemble of ConvNeXt Variants. [Preprint]. Research Square. URL: https://doi.org/10.21203/rs.3.rs-1791422/v1 [Accessed 12th January 2026].</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Selvaraju R.R., Cogswell M., Das A., Vedantam R., Parikh D., Batra D. Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. In: 2017 IEEE International Conference on Computer Vision (ICCV), 22–29 October 2017, Venice, Italy. IEEE; 2017. P. 618–626. https://doi.org/10.1109/ICCV.2017.74</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Ribeiro M.T., Singh S., Guestrin C. "Why Should I Trust You?": Explaining the Predictions of Any Classifier. In: KDD '16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 13–17 August 2016, San Francisco, CA, USA. New York: Association for Computing Machinery; 2016. P. 1135–1144. https://doi.org/10.1145/2939672.2939778</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Черемискин А.В., Каширина И.Л. Сегментация мультифазных КТ-изображений с использованием ансамбля моделей ResUNet. Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2025;(3):140–152. https://doi.org/10.17308/sait/1995-5499/2025/3/140-152</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>