Методика обучения классификаторов изображений с использованием дополнительных меток
Работая с сайтом, я даю свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта обрабатывается системой Яндекс.Метрика
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Методика обучения классификаторов изображений с использованием дополнительных меток

idПетрова Я.С.

УДК 004.93'11
DOI: 10.26102/2310-6018/2025.49.2.041

  • Аннотация
  • Список литературы
  • Об авторах

Статья посвящена разработке методики обучения классификаторов с учетом отношений между классами, представленных в виде дополнительных меток. Для этого проведен анализ функций потерь, используемых в классификации, и подходов к внедрению в них дополнительных меток. По результатам анализа в качестве основы методики предложена триплетная функция потерь с гибкой границей, спроектированная на базе оригинальной триплетной функции. Гибкая граница дает возможность корректировать расстояния между векторными представлениями изображений в зависимости от степени различия их классов. Это позволяет моделировать разные степени сходства между классами: на уровне категории, группы, подгруппы. Дополнительно разработана стратегия подбора обучающих триплетов, препятствующая обнулению весов модели и ее застреванию на тривиальном решении. Методика апробирована в задачах классификации продуктов и болезней желудочно-кишечного тракта. В результате применения методики точность классификации увеличилась на 9 % в задаче распознавания болезней и на 6 % при распознавании продуктов. Было снижено количество грубых ошибок классификации. Пространство векторных представлений изображений, сформированное триплетной функцией потерь, позволяет решать задачу кластеризации, распознавать новые классы без дообучения модели.

1. Евстраткин К.С., Султанова А.Р., Ерпелев А.В. OPENCV: варианты использования компьютерного зрения. В сборнике: Цифровые технологии: наука, образование, инновации: материалы III Международного научного Форума профессорско-преподавательского состава и молодых ученых, 09 ноября 2020 года, Москва, Россия. Москва: Московский государственный технологический университет «СТАНКИН»; 2021. C. 28–31.

2. Лобзин И.А. Исследование возможностей системы ИИ ChatGPT по решению задачи классификации. В сборнике: Потенциал устойчивого инновационного развития: концепции, модели и практическое приложение: сборник статей по итогам Международной научно-практической конференции, 15 июня 2023 года, Пермь, Россия. Уфа: Агентство международных исследований; 2023. С. 157–162.

3. Moayeri M., Pope Ph., Balaji Yo., Feizi S. A Comprehensive Study of Image Classification Model Sensitivity to Foregrounds, Backgrounds, and Visual Attributes. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 18–24 June 2022, New Orleans, LA, USA. IEEE; 2022. P. 19065–19075. https://doi.org/10.1109/CVPR52688.2022.01850

4. Elhamod M., Diamond K.M., Maga A.M., et al. Hierarchy‐Guided Neural Network for Species Classification. Methods in Ecology and Evolution. 2021;13(1):642–652. https://doi.org/10.1111/2041-210X.13768

5. Иванова Г.С., Петрова Я.С. Анализ методов компьютерного зрения для систематизации живописных полотен. Нейрокомпьютеры: разработка, применение. 2022;24(6):20–29. https://doi.org/10.18127/j19998554-202206-02

6. Wang Yi., Liu P., Lang Yi., Zhou Q., Shan X. Learnable Dynamic Margin in Deep Metric Learning. Pattern Recognition. 2022;132. https://doi.org/10.1016/j.patcog.2022.108961

7. Sun Yi., Zhu Yu., Zhang Yu., et al. Dynamic Metric Learning: Towards a Scalable Metric Space to Accommodate Multiple Semantic Scales. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, 19–25 June 2021, Online. IEEE; 2021. P. 5393–5402. https://doi.org/10.1109/CVPR46437.2021.00535

8. Сулоев К.К., Шешкус А.В., Арлазаров В.Л. Сферические ограничения в триплетной функции потерь. Труды Института системного анализа Российской академии наук. 2023;73(2):50–58. https://doi.org/10.14357/20790279230205

9. Nguyen Kh., Nguyen H.H., Tiulpin A. AdaTriplet: Adaptive Gradient Triplet Loss with Automatic Margin Learning for Forensic Medical Image Matching. In: Medical Image Computing and Computer Assisted Intervention – MICCAI 2022: 25th International Conference: Proceedings: Part VIII, 18–22 September 2022, Singapore. Cham: Springer; 2022. P. 725–735. https://doi.org/10.48550/arXiv.2205.02849

10. Wang Zh., Wang Yi., Dong B., Pracheta S., Hamlen K., Khan L. Adaptive Margin Based Deep Adversarial Metric Learning. In: 2020 IEEE 6th International Conference on Big Data Security on Cloud (BigDataSecurity), IEEE International Conference on High Performance and Smart Computing, (HPSC) and IEEE International Conference on Intelligent Data and Security (IDS), 25–27 May 2020, Baltimore, MD, USA. IEEE; 2020. P. 100–108. https://doi.org/10.1109/BigDataSecurity-HPSC-IDS49724.2020.00028

11. Zakharov S., Kehl W., Planche B., Hutter A., Ilic S. 3D Object Instance Recognition and Pose Estimation Using Triplet Loss With Dynamic Margin. In: 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 24–28 September 2017, Vancouver, BC, Canada. IEEE; 2017. P. 552–559. https://doi.org/10.1109/IROS.2017.8202207

12. Shaik S., Bucher B., Agrafiotis N., Phillips S., Daniilidis K., Schmenner W. Learning Portrait Style Representations. arXiv. URL: https://doi.org/10.48550/arXiv.2012.04153 [Accessed 3rd May 2025].

13. Новикова К.Н. Тенденции развития методов классификации объектов на основе модификаций контрастного обучения. В сборнике: Химия и инженерная экология – XXIII: сборник трудов международной научной конференции (школа молодых ученых), посвященной сотрудничеству с союзными государствами, 25–26 сентября 2023 года, Казань, Россия. ИП Сагиев А.Р.; 2023. С. 200–205.

14. Рогачёв Н.Е. Проблема коллапса нейронных сетей при использовании Triplet Loss. В сборнике: Веб-программирование и интернет-технологии WebConf2018: тезисы докладов 4-й Международной научно-практической конференции, 14–18 мая 2018 года, Минск, Беларусь. Минск: Белорусский государственный университет; 2018. C. 92.

15. Abdullah T., Bazi Ya., Al Rahhal M.M., Mekhalfi M.L., Rangarajan L., Zuair M. TextRS: Deep Bidirectional Triplet Network for Matching Text to Remote Sensing Images. Remote Sensing. 2020;12(3). https://doi.org/10.3390/rs12030405

16. Borgli H., Thambawita V., Smedsrud P.H., et al. HyperKvasir, a Comprehensive Multi-Class Image and Video Dataset for Gastrointestinal Endoscopy. Scientific Data. 2020;7. https://doi.org/10.1038/s41597-020-00622-y

17. Петрова Я.С., Иванова Г.С. Сравнение моделей извлечения признаков из изображений с несколькими аннотациями. Математические методы в технологиях и технике. 2023;(2):71–74.

Петрова Яна Сергеевна

Scopus | ORCID | РИНЦ |

Московский государственный технический университет им. Н.Э. Баумана

Москва, Российская Федерация

Ключевые слова: функция потерь, классификация, компьютерное зрение, триплеты, метки, векторное пространство

Для цитирования: Петрова Я.С. Методика обучения классификаторов изображений с использованием дополнительных меток. Моделирование, оптимизация и информационные технологии. 2025;13(2). URL: https://moitvivt.ru/ru/journal/pdf?id=1928 DOI: 10.26102/2310-6018/2025.49.2.041

22

Полный текст статьи в PDF

Поступила в редакцию 27.04.2025

Поступила после рецензирования 25.05.2025

Принята к публикации 07.06.2025