Малоранговые аппроксимации нейросетевых алгоритмов
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Малоранговые аппроксимации нейросетевых алгоритмов

idШапошникова Н.В.

УДК 004.89
DOI: 10.26102/2310-6018/2020.30.3.018

  • Аннотация
  • Список литературы
  • Об авторах

На сегодняшний день искусственные нейронные сети (далее ИНС) и глубокое обучение стали практически незаменимыми в приложениях, связанных с задачами машинного зрения, машинного перевода, преобразования речи в текст, рубрикации текстов, обработки видеоданных и т.д. Однако, несмотря на наличие ряда классических теорем, обосновывающих аппроксимирующие способности нейросетевых структур, текущие успехи в области ИНС в большинстве случаев связаны с эвристическим построением архитектуры сети, применимой только для конкретной рассматриваемой задачи. С другой стороны, глубокие ИНС имеют миллионы параметров и требуют для своего функционирования мощные вычислительные устройства, что ограничивает возможности их применения, например, на мобильных устройствах. Существенный прогресс в решении данных проблем может быть получен при использовании современных мощных алгоритмов малоранговых аппроксимаций для параметров слоев ИНС, что позволит как упростить процесс разработки нейросетевой архитектуры, так и получить существенное сжатие и ускорение обучения глубоких ИНС. Рассматривая, например, ядро сверточной ИНС, как четырехмерный массив (тензор), мы можем построить для него малоранговую аппроксимацию с эффективной реализацией его свертки с вектором (прямое распространение сигнала в сети при формировании предсказания) и дифференцирования по параметрам (обратное распространение сигнала в сети при обучении). В данной работе мы рассмотрим современную парадигму машинного обучения и малоранговых тензорных аппроксимаций, и на конкретном модельном численном примере, соответствующем задаче автоматического распознавания рукописных цифр, продемонстрируем перспективы тензоризации глубоких ИНС.

1. LeCun Y., Bengio Y., Hinton G. Deep learning. Nature. 2015;521(7553):436-444.

2. Zhang C., Patras P., Haddadi H. Deep learning in mobile and wireless networking: A survey. IEEE Communications Surveys & Tutorials. 2019;21(3):2224-2287.

3. Zhao Z., Zheng P., Xu S. Object detection with deep learning: A review. IEEE transactions on neural networks and learning systems. 2019;30(11):3212-3232.

4. Cybenko G. Approximation by superpositions of a sigmoidal function. Math. Control Signals Systems. 1989;2(4):303–314.

5. Hornik K. Approximation capabilities of multilayer feedforward networks. Neural Networks. 1991;4(2):251–257.

6. Cohen N., Sharir O., Shashua, A. On the expressive power of deep learning: a tensor analysis. arXiv preprint. 2015;arXiv:1509.05009.

7. Cichocki A. Tensor networks for dimensionality reduction and large-scale optimization. Foundations and Trends in Machine Learning. 2016;9.4-5.

8. Lebedev V. Speeding-up convolutional neural networks using fine-tuned cpdecomposition. arXiv preprint, 2014;arXiv:1412.6553.

9. Novikov A., Podoprikhin D., Osokin A., Vetrov D. Tensorizing neural networks. In Advances in neural information processing systems. 2015;442-450.

10. Deng L. The mnist database of handwritten digit images for machine learning research. IEEE Signal Processing Magazine. 2012;29(6):141-142.

11. Bottou L. Large-scale machine learning with stochastic gradient descent. In Proceedings of COMPSTAT’2010. 2010;177–186.

12. Rumelhart D., Hinton G., Williams R. Learning representations by back-propagating errors. Nature. 1986;323(6088):533–538.

13. Grasedyck L., Kressner D., Tobler C. A literature survey of low‐rank tensor approximation techniques. GAMM‐Mitteilungen. 2013:36(1):53-78.

14. Harshman R. Foundations of the Parafac procedure: Models and conditions for an explanatory multimodal factor analysis. UCLA Working Papers in Phonetics. 1970;1–84.

15. Tucker L. Some mathematical notes on three-mode factor analysis. Psychometrika. 1966;31:279–311.

16. PyTorch, фреймворк машинного обучения [Электронный ресурс]. – Режим доступа: https://pytorch.org – Дата доступа: 10.06.2020

17. Colab, интерактивная облачная среда [Электронный ресурс]. – Режим доступа: https://colab.research.google.com – Дата доступа: 10.06.2020

Шапошникова Нина Владимировна

Email: shapninel@gmail.com

ORCID |

ФГБОУ ВО "Сибирский государственный университет науки и технологии имени академика М.Ф. Решетнева»

Красноярск, Российская Федерация

Ключевые слова: машинное обучение, нейронная сеть, глубокая сверточная сеть, малоранговая аппроксимация

Для цитирования: Шапошникова Н.В. Малоранговые аппроксимации нейросетевых алгоритмов. Моделирование, оптимизация и информационные технологии. 2020;8(3). Доступно по: https://moit.vivt.ru/wp-content/uploads/2020/08/Shaposhnikova_3_20_1.pdf DOI: 10.26102/2310-6018/2020.30.3.018

694

Полный текст статьи в PDF