Использование архитектур ResNet и Трансформеров в задаче генерации исходного кода на основе изображения
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Использование архитектур ResNet и Трансформеров в задаче генерации исходного кода на основе изображения

Никитин И.В. 

УДК 004.832.22
DOI: 10.26102/2310-6018/2025.49.2.002

  • Аннотация
  • Список литературы
  • Об авторах

В статье рассматриваются различные способы оптимизации системы, разработанной для генерации исходного кода на основе изображения. Сама система состоит из двух частей: автоэнкодера для обработки изображений и выделения из них необходимых признаков, и обработки текста с использованием LSTM блоков. В последнее время вышло много новых подходов к решению задач как улучшения показателей обработки изображения, так и обработки и предсказания текста. В рамках данного исследования были выбраны архитектуры ResNet для улучшения части, связанной с обработкой изображения, и архитектура Трансформера для улучшения части, связанной с предсказанием текста. В рамках экспериментов было проведено сравнение показателей систем, состоящих из различных комбинаций архитектурных решений исходной системы, ResNet архитектуры и Трансформеров, сделан вывод о качестве предсказания на основе показателей метрик BLEU, chrF++, а также выполнения функциональных тестов. В ходе проведенных экспериментов был сделан вывод о том, что комбинация архитектур ResNet и Трансформеров показывает наилучший результат в задаче генерации исходного кода на основе изображения, но также эта комбинация требует наибольшего времени для своего обучения.

1. Beltramelli T. pix2code: Generating Code from a Graphical User Interface Screenshot. In: EICS '18: Proceedings of the ACM SIGCHI Symposium on Engineering Interactive Computing Systems, 19–22 June 2018, Paris, France. New York: Association for Computing Machinery; 2018. https://doi.org/10.1145/3220134.3220135

2. Zhu Zh., Xue Zh., Yuan Z. Automatic Graphics Program Generation Using Attention-Based Hierarchical Decoder. In: Computer Vision – ACCV 2018: 14th Asian Conference on Computer Vision: Revised Selected Papers: Part VI, 02–06 December 2018, Perth, Australia. Cham: Springer; 2019. pp. 181–196. https://doi.org/10.1007/978-3-030-20876-9_12

3. Liu Ya., Hu Q., Shu K. Improving pix2code Based BI-directional LSTM. In: 2018 IEEE International Conference on Automation, Electronics and Electrical Engineering (AUTEEE), 16–18 November 2018, Shenyang, China. IEEE; 2019. pp. 220–223. https://doi.org/10.1109/AUTEEE.2018.8720784

4. Zou D., Wu G. Automatic Code Generation for Android Applications Based on Improved Pix2code. Journal of Artificial Intelligence and Technology. 2024;4(4):325–331. https://doi.org/10.37965/jait.2024.0515

5. Никитин И.В. Влияние версии библиотеки TensorFlow на качество генерации кода по изображению. Моделирование, оптимизация и информационные технологии. 2024;12(4). https://doi.org/10.26102/2310-6018/2024.47.4.040

6. Никитин И.В. Оценка качества полученного результата в задаче генерации исходного кода по изображению. Моделирование, оптимизация и информационные технологии. 2025;13(1). https://doi.org/10.26102/2310-6018/2025.48.1.030

7. He K., Zhang X., Ren Sh., Sun J. Deep Residual Learning for Image Recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 27–30 June 2016, Las Vegas, USA. IEEE; 2016 pp. 770–778. https://doi.org/10.1109/CVPR.2016.90

8. Balduzzi D., Frean M., Leary L., Lewis J.P., Wan-Duo Ma K., McWilliams B. The Shattered Gradients Problem: If resnets are the answer, then what is the question? In: ICML'17: Proceedings of the 34th International Conference on Machine Learning, 06–11 August 2017, Sydney, Australia. 2017. pp. 342–350. https://doi.org/10.48550/arXiv.1702.08591

9. Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser Ł., Polosukhin I. Attention Is All You Need. In: NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems, 04–09 December 2017, Long Beach, USA. New York: Curran Associates Inc.; 2017. pp. 6000–6010.

10. Chen W.-Y., Podstreleny P., Cheng W.-H., Chen Y.-Y., Hua K.-L. Code Generation From a Graphical User Interface Via Attention-Based Encoder-Decoder Model. Multimedia Systems. 2022;28(1):121–130. https://doi.org/10.1007/s00530-021-00804-7

11. Popović M. chrF++: Words Helping Character N-grams. In: Proceedings of the Second Conference on Machine Translation, 07–08 September 2017, Copenhagen, Denmark. Association for Computational Linguistics; 2017. pp. 612–618. https://doi.org/10.18653/v1/W17-4770

Никитин Илья Владимирович

Российский экономический университет имени Г.В. Плеханова

Москва, Российская Федерация

Ключевые слова: кодогенерация, изображение, машинное обучение, resNet, трансформеры

Для цитирования: Никитин И.В. Использование архитектур ResNet и Трансформеров в задаче генерации исходного кода на основе изображения. Моделирование, оптимизация и информационные технологии. 2025;13(2). URL: https://moitvivt.ru/ru/journal/pdf?id=1863 DOI: 10.26102/2310-6018/2025.49.2.002

15

Полный текст статьи в PDF

Поступила в редакцию 19.03.2025

Поступила после рецензирования 31.03.2025

Принята к публикации 04.04.2025