Ключевые слова: нейросетевая модель, распознавание эмоций, сверточные нейронные сети, машинное обучение, обработка изображений, видеопоток
Метод распознавания эмоций человека по двигательной активности тела в видеопотоке на основе нейронных сетей
УДК 004.032.26
DOI: 10.26102/2310-6018/2021.32.1.004
В данной статье рассматривается применение различных нейросетевых моделей для решения задачи распознавания эмоций человека по двигательной активности его тела на кадрах видеопотока без сложной предварительной обработки этих кадров. В работе представлены трехмерные сверточные нейронные сети: Inception 3D (I3D), Residual 3D (R3D), а также сверточно-рекуррентные нейросетевые архитектуры, использующие сверточную нейронную сеть архитектуры ResNet и рекуррентные нейросети архитектур LSTM и GRU (ResNet+LSTM, ResNet+GRU), которые не требуют предварительной обработки изображений или видеопотока и при этом потенциально позволяют достичь высокой точности распознавания эмоций. На основе рассмотренных архитектур предложен метод распознавания эмоций человека по двигательной активности тела в видеопотоке. Обсуждаются архитектурные особенности используемых моделей, способы обработки моделями кадров видеопотока, а также результаты распознавания эмоций по следующим метрикам качества: доля верно распознанных экземпляров (accuracy), точность (precision), полнота (recall). Результаты апробации предложенных в работе нейросетевых моделей I3D, R3D, ResNet+LSTM, ResNet+GRU на наборе данных FABO показали высокое качество распознавания эмоций по двигательной активности тела человека. Так, модель R3D показала лучшую долю верно распознанных экземпляров, равную 91 %. Другие предложенные модели: I3D, ResNet+LSTM, ResNet+GRU – показали точность распознавания 88 %, 80 % и 80 % соответственно. Таким образом, согласно полученным результатам экспериментальной оценки предложенных нейросетевых моделей, наиболее предпочтительными для использования при решении задачи распознавания эмоционального состояния человека по двигательной активности, с точки зрения совокупности показателей точности классификации эмоций, являются трехмерные сверточные модели I3D и R3D. При этом, предложенные модели, в отличие от большинства существующих решений, позволяют реализовывать распознавание эмоций на основе анализа RGB кадров видеопотока без выполнения их предварительной ресурсозатратной обработки, а также с высокой точностью выполнять распознавание эмоций в реальном масштабе времени.
