Распознавание дизартричной речи по фонемам с использованием скрытых марковских моделей
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Распознавание дизартричной речи по фонемам с использованием скрытых марковских моделей

idБредихин Б.А. idАнтор М. Хлебников Н.А.   Мельников А.В.   Бачурин М.В.  

УДК 004.852
DOI: 10.26102/2310-6018/2024.44.1.002

  • Аннотация
  • Список литературы
  • Об авторах

Актуальность работы обусловлена сложностями устного взаимодействия людей с нарушениями речи с нормотипичными собеседниками, а также низким качеством распознавания аномальной речи стандартными системами распознавания речи и невозможностью создания системы, способной обработать любые нарушения речи. В связи с этим данная статья направлена на разработку метода автоматического распознавания дизартричной речи с применением предобученной нейронной сети для распознавания фонем и скрытых марковских моделей для преобразования фонем в текст и последующей коррекции результатов распознавания с помощью поиска в пространстве допустимых слов ближайшего по расстоянию Левенштейна слова и динамического алгоритма разбиения выхода модели на отдельные слова. Основное преимущество использования скрытых марковских моделей по сравнению с нейронными сетями заключается в малом размере обучающего набора данных, собираемого индивидуально для каждого пользователя, а также в простоте дообучения модели в случае прогрессирующих нарушений речи. Описывается набор данных для обучения модели, и даются рекомендации по сбору и разметке данных для обучения модели. Эффективность предложенного метода проверяется на индивидуальном наборе данных, записанных человеком с дизартрией; качество распознавания сравнивается с нейросетевыми моделями, обученными на используемом наборе данных. Материалы статьи представляют практическую ценность для создания средства дополненной коммуникации для людей с нарушениями речи.

1. Rowe H.P., Gutz S.E., Maffei M.F., Tomanek K., Green J.R. Characterizing dysarthria diversity for automatic speech recognition: a tutorial from the clinical perspective. Front. Comput. Sci. 4:770210. DOI: 10.3389/fcomp.2022.770210.

2. Balaji V., Sadashivappa G. Speech disabilities in adults and the suitable speech recognition software tools – a review. In: 2015 International Conference on Computing and Network Communications (CoCoNet), Trivandrum, India, 2015. p. 559–564. DOI: 10.1109/CoCoNet.2015.7411243.

3. Xiong F., Barker J., Christensen H. Deep learning of articulatory-based representations and applications for improving dysarthric speech recognition. Speech Communication; 13th ITG-Symposium, Oldenburg, Germany, 2018. p. 1–5.

4. Xiong F., Barker J., Christensen H. Phonetic analysis of dysarthric speech tempo and applications to robust personalised dysarthric speech recognition. ICASSP 2019 – 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, UK, 2019. p. 5836–5840. DOI: 10.1109/ICASSP.2019.8683091.

5. Hawley M.S., Cunningham S.P., Green P.D., Enderby P., Palmer R., Sehgal S., et al. A voice-input voice-output communication aid for people with severe speech impairment. IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2013;21(1):23–31.

6. Yeo E.J., Choi K., Kim S., Chung M. Automatic severity classification of dysarthric speech by using self-supervised model with multi-task learning. In: ICASSP 2023 – 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Rhodes Island, Greece, 2023. p. 1–5. DOI: 10.1109/ICASSP49357.2023.10094605.

7. Hashan A.M., Bredikhin B. Russian Voice Dataset. Kaggle. URL: https://www.kaggle.com/dsv/5954738 (дата обращения: 12.08.2023).

8. Xu Q., Baevski A., Auli M. Simple and effective zero-shot cross-lingual phoneme recognition. arXiv; 2021. URL: http://arxiv.org/abs/2109.11680 (дата обращения: 18.05.2023).

9. Левенштейн ВИ. Двоичные коды с исправлением выпадений, вставок и замещений символов. Докл. АН СССР. 1965;163(4):845–848.

10. Baevski A., Zhou Y., Mohamed A., Auli M. wav2vec 2.0: A framework for self-supervised learning of speech representations. In: Advances in Neural Information Processing Systems. Curran Associates, Inc.; 2020. p. 12449–12460. DOI: 10.48550/arXiv.2006.11477.

Бредихин Борис Андреевич

ORCID | РИНЦ |

Уральский федеральный университет
ООО "СайберЛимфа"

Екатеринбург, Российская Федерация

Антор Махамудул

ORCID |

Уральский федеральный университет

Екатеринбург, Российская Федерация

Хлебников Николай Александрович
кандидат химических наук

Уральский федеральный университет

Екатеринбург, Российская Федерация

Мельников Александр Валерьевич

Уральский федеральный университет

Екатеринбург, Российская Федерация

Бачурин Матвей Владимирович

Уральский федеральный университет

Екатеринбург, Российская Федерация

Ключевые слова: скрытые марковские модели, дизартрия, автоматическое распознавание речи, распознавание фонем, коррекция фонем

Для цитирования: Бредихин Б.А. Антор М. Хлебников Н.А. Мельников А.В. Бачурин М.В. Распознавание дизартричной речи по фонемам с использованием скрытых марковских моделей. Моделирование, оптимизация и информационные технологии. 2024;12(1). Доступно по: https://moitvivt.ru/ru/journal/pdf?id=1471 DOI: 10.26102/2310-6018/2024.44.1.002 (на англ.)

258

Полный текст статьи в PDF

Поступила в редакцию 02.11.2023

Поступила после рецензирования 04.12.2023

Принята к публикации 17.01.2024

Опубликована 22.01.2024