Искусственная нейронная сеть подавления артефактов наложения изображений для изменения атрибутов лица на основе дифференциальной активации
Работая с сайтом, я даю свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта обрабатывается системой Яндекс.Метрика
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Искусственная нейронная сеть подавления артефактов наложения изображений для изменения атрибутов лица на основе дифференциальной активации

idГу Чунюй, idГромов М.Л.

УДК 004.89
DOI: 10.26102/2310-6018/2025.50.3.013

  • Аннотация
  • Список литературы
  • Об авторах

В работе предлагается новый метод подавления артефактов, возникающих при наложении изображений друг на друга. Метод основан на дифференциальной активации. Задача наложения изображений возникает во многих приложениях, однако в данной работе она рассматривается с точки зрения редактирования атрибутов лица. Существующие подходы подавления артефактов имеют существенные ограничения. Они используют дифференциальную активацию для локализации областей редактирования с последующим слиянием признаков, что приводит к потере характерных деталей (например, украшения, прически) и нарушению целостности фона. Передовой метод подавления артефактов основан на энкодер-декодерной архитектуре и иерархической агрегации карт признаков генератора StyleGAN2 с декодером, что приводит к искажению текстур, чрезмерной резкости и эффекту алиасинга. Мы предлагаем метод, объединяющий традиционный алгоритм обработки изображений с методом глубокого обучения. В нем объединены блендинг Пуассона и нейронная сеть MAResU-Net. Блендинг Пуассона используется для создания слитых изображений без артефактов, а сеть MAResU-Net учится сопоставлять изображения, загрязненные артефактами, с чистыми версиями. В результате формируется конвейер преобразования изображений с артефактами наложения в чистые изображения без артефактов. На первых 1000 изображениях базы данных CelebA-HQ разработанный метод демонстрирует превосходство по сравнению с известным методом по пяти метрикам: PSNR: +17,11 % (от 22,24 до 26,06), SSIM: +40,74 % (от 0,618 до 0,870), MAE: −34,09 % (от 0,0511 до 0,0338), LPIPS: −67,16 % (от 0,3268 до 0,1078), FID: −48,14 % (от 27,53 до 14,69) при 26,3 млн параметров (в 6,6 раз меньше, чем 174,2 млн у аналога) и ускорении обработки на 22 %. Метод сохраняет детали аксессуаров, фоновые элементы и текстуру кожи, которые обычно теряются в существующих методах, что подтверждает его практическую ценность для реальных приложений редактирования лиц.

1. Goodfellow I.J., Pouget-Abadie J., Mirza M., et al. Generative Adversarial Networks. arXiv. URL: https://arxiv.org/abs/1406.2661 [Accessed 19th April 2025].

2. Karras T., Laine S., Aila T. A Style-Based Generator Architecture for Generative Adversarial Networks. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 15–20 June 2019, Long Beach, CA, USA. IEEE; 2019. P. 4401–4410. https://doi.org/10.1109/TPAMI.2020.2970919

3. Karras T., Laine S., Aittala M., Hellsten J., Lehtinen J., Aila T. Analyzing and Improving the Image Quality of StyleGAN. In: 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 13–19 June 2020, Seattle, WA, USA. IEEE; 2020. P. 8107–8116. https://doi.org/10.1109/CVPR42600.2020.00813

4. Richardson E., Alaluf Yu., Patashnik O., et al. Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation. In: 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 20–25 June 2021, Nashville, TN, USA. IEEE; 2021. P. 2287–2296. https://doi.org/10.1109/CVPR46437.2021.00232

5. Tov O., Alaluf Yu., Nitzan Yo., Patashnik O., Cohen-Or D. Designing an Encoder for Stylegan Image Manipulation. ACM Transactions on Graphics (TOG). 2021;40(4). https://doi.org/10.1145/3450626.3459838

6. Alaluf Yu., Patashnik O., Cohen-Or D. ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement. In: 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 10–17 October 2021, Montreal, QC, Canada. IEEE; 2021. P. 6691–6700. https://doi.org/10.1109/ICCV48922.2021.00664

7. Wang T., Zhang Yo., Fan Ya., Wang J., Chen Q. High-Fidelity GAN Inversion for Image Attribute Editing. In: 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 18–24 June 2022, New Orleans, LA, USA. IEEE; 2022. P. 11369–11378. https://doi.org/10.1109/CVPR52688.2022.01109

8. Song H., Du Yo., Xiang T., Dong J., Qin J., He Sh. Editing Out-of-Domain GAN Inversion via Differential Activations. In: Computer Vision – ECCV 2022: 17th European Conference: Proceedings: Part XVII, 23–27 October 2022, Tel Aviv, Israel. Cham: Springer; 2022. P. 1–17. https://doi.org/10.1007/978-3-031-19790-1_1

9. Li R., Zheng Sh., Duan Ch., Su J., Zhang C. Multistage Attention ResU-Net for Semantic Segmentation of Fine-Resolution Remote Sensing Images. IEEE Geoscience and Remote Sensing Letters. 2021;19. https://doi.org/10.1109/LGRS.2021.3063381

10. Zhang Zh., Liu Q., Wang Yu. Road Extraction by Deep Residual U-Net. IEEE Geoscience and Remote Sensing Letters. 2018;15(5):749–753. https://doi.org/10.1109/LGRS.2018.2802944

11. Simonyan K., Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv. URL: https://arxiv.org/abs/1409.1556 [Accessed 26th May 2025].

12. Karras T., Aila T., Laine S., Lehtinen J. Progressive Growing of GANs for Improved Quality, Stability, and Variation. arXiv. URL: https://arxiv.org/abs/1710.10196 [Accessed 19th April 2025].

13. Wang Zh., Bovik A.C., Sheikh H.R., Simoncelli E.P. Image Quality Assessment: From Error Visibility to Structural Similarity. IEEE Transactions on Image Processing. 2004;13(4):600–612. https://doi.org/10.1109/TIP.2003.819861

14. Zhang R., Isola Ph., Efros A.A., Shechtman E., Wang O. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. In: 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 18–23 June 2018, Salt Lake City, UT, USA. IEEE; 2018. P. 586–595. https://doi.org/10.1109/CVPR.2018.00068

15. Heusel M., Ramsauer H., Unterthiner Th., Nessler B., Hochreiter S. GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. arXiv. URL: https://arxiv.org/abs/1706.08500 [Accessed 1st April 2025].

Гу Чунюй

ORCID |

Национальный исследовательский Томский государственный университет

Томск, Российская Федерация

Громов Максим Леонидович
Кандидат физико-математических наук, доцент

ORCID |

Национальный исследовательский Томский государственный университет

Томск, Российская Федерация

Ключевые слова: глубокое обучение, изменение атрибутов лица, сеть подавления артефактов наложения, преобразование изображений, дифференциальная активация, MAResU-Net, генеративно-состязательная сеть (GAN)

Для цитирования: Гу Чунюй, Громов М.Л. Искусственная нейронная сеть подавления артефактов наложения изображений для изменения атрибутов лица на основе дифференциальной активации. Моделирование, оптимизация и информационные технологии. 2025;13(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1971 DOI: 10.26102/2310-6018/2025.50.3.013

22

Полный текст статьи в PDF

Поступила в редакцию 26.05.2025

Поступила после рецензирования 26.06.2025

Принята к публикации 07.07.2025