Ключевые слова: скрытые марковские модели, дизартрия, автоматическое распознавание речи, распознавание фонем, коррекция фонем
Распознавание дизартричной речи по фонемам с использованием скрытых марковских моделей
УДК 004.852
DOI: 10.26102/2310-6018/2024.44.1.002
Актуальность работы обусловлена сложностями устного взаимодействия людей с нарушениями речи с нормотипичными собеседниками, а также низким качеством распознавания аномальной речи стандартными системами распознавания речи и невозможностью создания системы, способной обработать любые нарушения речи. В связи с этим данная статья направлена на разработку метода автоматического распознавания дизартричной речи с применением предобученной нейронной сети для распознавания фонем и скрытых марковских моделей для преобразования фонем в текст и последующей коррекции результатов распознавания с помощью поиска в пространстве допустимых слов ближайшего по расстоянию Левенштейна слова и динамического алгоритма разбиения выхода модели на отдельные слова. Основное преимущество использования скрытых марковских моделей по сравнению с нейронными сетями заключается в малом размере обучающего набора данных, собираемого индивидуально для каждого пользователя, а также в простоте дообучения модели в случае прогрессирующих нарушений речи. Описывается набор данных для обучения модели, и даются рекомендации по сбору и разметке данных для обучения модели. Эффективность предложенного метода проверяется на индивидуальном наборе данных, записанных человеком с дизартрией; качество распознавания сравнивается с нейросетевыми моделями, обученными на используемом наборе данных. Материалы статьи представляют практическую ценность для создания средства дополненной коммуникации для людей с нарушениями речи.
1. Rowe H.P., Gutz S.E., Maffei M.F., Tomanek K., Green J.R. Characterizing dysarthria diversity for automatic speech recognition: a tutorial from the clinical perspective. Front. Comput. Sci. 4:770210. DOI: 10.3389/fcomp.2022.770210.
2. Balaji V., Sadashivappa G. Speech disabilities in adults and the suitable speech recognition software tools – a review. In: 2015 International Conference on Computing and Network Communications (CoCoNet), Trivandrum, India, 2015. p. 559–564. DOI: 10.1109/CoCoNet.2015.7411243.
3. Xiong F., Barker J., Christensen H. Deep learning of articulatory-based representations and applications for improving dysarthric speech recognition. Speech Communication; 13th ITG-Symposium, Oldenburg, Germany, 2018. p. 1–5.
4. Xiong F., Barker J., Christensen H. Phonetic analysis of dysarthric speech tempo and applications to robust personalised dysarthric speech recognition. ICASSP 2019 – 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 2019. p. 5836–5840. DOI: 10.1109/ICASSP.2019.8683091.
5. Hawley M.S., Cunningham S.P., Green P.D., Enderby P., Palmer R., Sehgal S., et al. A voice-input voice-output communication aid for people with severe speech impairment. IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2013;21(1):23–31.
6. Yeo E.J., Choi K., Kim S., Chung M. Automatic severity classification of dysarthric speech by using self-supervised model with multi-task learning. In: ICASSP 2023 – 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, 2023. p. 1–5. DOI: 10.1109/ICASSP49357.2023.10094605.
7. Hashan A.M., Bredikhin B. Russian Voice Dataset. Kaggle. URL: https://www.kaggle.com/dsv/5954738 (дата обращения: 12.08.2023).
8. Xu Q., Baevski A., Auli M. Simple and effective zero-shot cross-lingual phoneme recognition. arXiv; 2021. URL: http://arxiv.org/abs/2109.11680 (дата обращения: 18.05.2023).
9. Левенштейн ВИ. Двоичные коды с исправлением выпадений, вставок и замещений символов. Докл. АН СССР. 1965;163(4):845–848.
10. Baevski A., Zhou Y., Mohamed A., Auli M. wav2vec 2.0: A framework for self-supervised learning of speech representations. In: Advances in Neural Information Processing Systems. Curran Associates, Inc.; 2020. p. 12449–12460. DOI: 10.48550/arXiv.2006.11477.
Ключевые слова: скрытые марковские модели, дизартрия, автоматическое распознавание речи, распознавание фонем, коррекция фонем
Для цитирования: Бредихин Б.А., Антор М., Хлебников Н.А., Мельников А.В., Бачурин М.В. Распознавание дизартричной речи по фонемам с использованием скрытых марковских моделей. Моделирование, оптимизация и информационные технологии. 2024;12(1). URL: https://moitvivt.ru/ru/journal/pdf?id=1471 DOI: 10.26102/2310-6018/2024.44.1.002 (на англ.)
Поступила в редакцию 02.11.2023
Поступила после рецензирования 04.12.2023
Принята к публикации 17.01.2024
Опубликована 31.03.2024