Ключевые слова: кодогенерация, изображение, машинное обучение, набор данных, исходный код
Создание модуля для генерации набора данных для обучения задачи генерации исходного кода на основе изображения
УДК 004.832.22
DOI: 10.26102/2310-6018/2025.50.3.030
В рамках данного исследования предлагается новый механизм создания данных для обучения нейронной сети для задачи генерации кода на основе изображения. Для того, чтобы система могла выполнять поставленную перед ней задачу, ее необходимо обучить. Изначальный набор данных, который предоставляется с системой pix2code, позволяет обучить систему, однако он опирается на те данные, которые представлены в словаре предметно-ориентированного языка. Расширение или изменение слов в словаре никак не влияет на набор данных, что ограничивает гибкость в применении системы, не позволяя учесть правила, которые могут применяться на предприятии. В части исследований есть утверждения о том, что они создали свой набор данных, однако его отсутствие в открытом доступе не позволяет оценить сложность изображений, содержащихся в нем. Для решения этой проблемы, в рамках данного исследования разработан подмодуль, который позволяет на основе измененного словаря предметно-ориентированного языка создать свой набор данных для обучения, состоящий из пары изображение-исходный код, соответствующий этому изображению. Для проверки работоспособности созданного набора данных, доработанная система pix2code выполнила обучение, а после смогла предсказать код на тестовых примерах.
1. Beltramelli T. pix2code: Generating Code from a Graphical User Interface Screenshot. In: EICS '18: Proceedings of the ACM SIGCHI Symposium on Engineering Interactive Computing Systems, 19–22 June 2018, Paris, France. New York: Association for Computing Machinery; 2018. https://doi.org/10.1145/3220134.3220135
2. Zhu Zh., Xue Zh., Yuan Z. Automatic Graphics Program Generation Using Attention-Based Hierarchical Decoder. In: Computer Vision – ACCV 2018: 14th Asian Conference on Computer Vision: Revised Selected Papers: Part VI, 02–06 December 2018, Perth, Australia. Cham: Springer; 2019. P. 181–196. https://doi.org/10.1007/978-3-030-20876-9_12
3. Liu Ya., Hu Q., Shu K. Improving pix2code Based BI-directional LSTM. In: 2018 IEEE International Conference on Automation, Electronics and Electrical Engineering (AUTEEE), 16–18 November 2018, Shenyang, China. IEEE; 2019. P. 220–223. https://doi.org/10.1109/AUTEEE.2018.8720784
4. Никитин И.В. Использование архитектур ResNet и Трансформеров в задаче генерации исходного кода на основе изображения. Моделирование, оптимизация и информационные технологии. 2025;13(2). https://doi.org/10.26102/2310-6018/2025.49.2.002
5. Никитин И.В. Оценка качества полученного результата в задаче генерации исходного кода по изображению. Моделирование, оптимизация и информационные технологии. 2025;13(1). https://doi.org/10.26102/2310-6018/2025.48.1.030
6. Chen W.-Yi., Podstreleny P., Cheng W.-H., Chen Yu.-Ya., Hua K.-L. Code Generation from a Graphical User Interface Via Attention-Based Encoder-Decoder Model. Multimedia Systems. 2022;28(1):121–130. https://doi.org/10.1007/s00530-021-00804-7
7. Zou D., Wu G. Automatic Code Generation for Android Applications Based on Improved Pix2code. Journal of Artificial Intelligence and Technology. 2024;4(4):325–331. https://doi.org/10.37965/jait.2024.0515
8. Nguyen T.A., Csallner Ch. Reverse Engineering Mobile Application User Interfaces with REMAUI (T). In: 2015 30th IEEE/ACM International Conference on Automated Software Engineering (ASE), 09–13 November 2015, Lincoln, NE, USA. IEEE; 2016. P. 248–259. URL: https://doi.org/10.1109/ASE.2015.32
9. Paul D.Gh., Zhu H., Bayley I. Benchmarks and Metrics for Evaluations of Code Generation: A Critical Review. In: 2024 IEEE International Conference on Artificial Intelligence Testing (AITest), 15–18 July 2024, Shanghai, China. IEEE; 2024. P. 87–94. https://doi.org/10.1109/AITest62860.2024.00019
10. Ling W., Blunsom Ph., Grefenstette E., et al. Latent Predictor Networks for Code Generation. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016: Volume 1: Long Papers, 07–12 August 2016, Berlin, Germany. The Association for Computer Linguistics; 2016. P. 599–609. https://doi.org/10.18653/v1/P16-1057
Ключевые слова: кодогенерация, изображение, машинное обучение, набор данных, исходный код
Для цитирования: Никитин И.В. Создание модуля для генерации набора данных для обучения задачи генерации исходного кода на основе изображения. Моделирование, оптимизация и информационные технологии. 2025;13(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1976 DOI: 10.26102/2310-6018/2025.50.3.030
Поступила в редакцию 28.05.2025
Поступила после рецензирования 07.07.2025
Принята к публикации 31.07.2025