Ключевые слова: оконная функция, окно Хэмминга, спектральный анализ, обработка голосовых сигналов, оптимизация параметров, градиентный спуск, биометрическая идентификация, точность определения спектра, STFT
Модифицированная оконная функция на базе окна Хемминга для повышения точности определения спектра голоса на аудиозаписи
УДК 004.622
DOI: 10.26102/2310-6018/2025.50.3.037
В данной работе рассматривается проблема повышения точности определения спектральных характеристик голосовых сигналов на аудиозаписях. Для решения этой задачи предложена модификация классической оконной функции Хэмминга путем введения оптимизируемого параметра. Актуальность исследования обусловлена необходимостью повышения надежности систем распознавания и идентификации голоса, особенно в контексте биометрических приложений и задач аутентификации. Основной целью является разработка алгоритма для вычисления оптимального значения этого параметра, максимизирующего качество спектрального анализа для конкретных диапазонов частот голоса. Для достижения цели использовался метод градиентного спуска для оптимизации параметра модифицированной функции. Оценка качества производилась на основе взвешенной суммы характеристик спектра (пик-фактор, ширина спектральной линии, отношение сигнал/шум). Были проведены эксперименты на тестовых сигналах, имитирующих мужской (200–400 Гц) и женский (220–880 Гц) голос. Результаты показали, что предложенный подход позволяет повысить точность определения спектральных составляющих, особенно в диапазоне мужского баритона (прирост до 5,42 %), за счет более четкого выделения основных частот и снижения уровня боковых лепестков по сравнению с классическим окном Хэмминга. Выводы исследования показывают перспективность адаптации оконных функций для конкретных диапазонов частот голосовых сигналов. Предложенный алгоритм может быть использован для улучшения работы систем биометрической идентификации и других приложений, требующих точного спектрального анализа голоса.
1. Harris F.J. On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform. Proceedings of the IEEE. 1978;66(1):51–83. https://doi.org/10.1109/PROC.1978.10837
2. Файзулаева О.Н., Невлюдов И.Ш. Пути улучшения качества речевого сигнала пользователя систем голосовой аутентификации. Научно-технический вестник информационных технологий, механики и оптики. 2014;(2):118–123.
3. Альрубеи М.А. Сравнительный анализ способов интерполяции при оценке частоты дискретизированного гармонического сигнала. Труды МАИ. 2023;(130). URL: https://trudymai.ru/published.php?ID=174612
4. Бакаев А.В. Влияние форматных областей на разборчивость речи. Информационное противодействие угрозам терроризма. 2008;(11):83–90.
5. Петухов Д.Е., Белов Ю.С. Обзор часто используемых алгоритмов по оптимизации стохастического градиентного спуска. E-Scio. 2021;(1):553–561.
6. Кулемзин Д.В., Данилюк С.С., Селезнев Д.В. Анализ существующих технологий аутентификации личности по голосовому сигналу. Современные наукоемкие технологии. 2022;(10–1):80–83. https://doi.org/10.17513/snt.39350
7. Дворкович В.П., Дворкович А.В. Оконные функции для гармонического анализа сигналов. Москва: Техносфера; 2014. 112 с.
8. Kaiser J.F. Nonrecursive Digital Filter Design Using the I0-Sinh Window Function. In: Proceedings of the 1974 IEEE International Symposium on Circuits and Systems, 22–25 April 1974, San Francisco, California, USA. IEEE; 1974. P. 20–23.
9. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. Москва: Радио и связь; 1981. 496 с.
10. Аршакян А.А., Ларкин Е.В. Определение соотношения сигнал-шум в системах наблюдения. Известия Тульского государственного университета. Технические науки. 2012;(3):168–174.
11. Каширина И.Л., Демченко М.В. Исследование и сравнительный анализ методов оптимизации, используемых при обучении нейронных сетей. Вестник ВГУ. Серия: Системный анализ и информационные технологии. 2018;(4):123–132.
12. Цыдыпова С.Ю., Цыбиков А.С. Гиперпараметры градиентных методов обучения нейронных сетей. В сборнике: Геометрия многообразий и ее приложения: материалы Шестой научной конференции с международным участием, 27–29 августа 2020 года, Улан-Удэ – оз. Байкал, Россия. Улан-Удэ: Изд-во Бурятского госуниверситета; 2020. С. 216–222.
13. Зайцев А.А., Курейчик В.В., Полупанов А.А. Обзор эволюционных методов оптимизации на основе роевого интеллекта. Известия ЮФУ. Технические науки. 2010;(12):7–12.
14. Сысолятина Л.Г. Задача многомерной оптимизации: метод Ньютона. Альманах современной науки и образования. 2012;(8):151–155.
15. Пантелеев А.В., Лобанов А.В. Градиентные методы оптимизации в машинном обучении идентификации параметров динамических систем. Моделирование и анализ данных. 2019;9(4):88–99. https://doi.org/10.17759/mda.2019090407
Ключевые слова: оконная функция, окно Хэмминга, спектральный анализ, обработка голосовых сигналов, оптимизация параметров, градиентный спуск, биометрическая идентификация, точность определения спектра, STFT
Для цитирования: Шульженко А.Д., Горбунова Д.А., Новосельцева А.М., Давидчук А.Г. Модифицированная оконная функция на базе окна Хемминга для повышения точности определения спектра голоса на аудиозаписи. Моделирование, оптимизация и информационные технологии. 2025;13(3). URL: https://moitvivt.ru/ru/journal/pdf?id=2016 DOI: 10.26102/2310-6018/2025.50.3.037
Поступила в редакцию 03.07.2025
Поступила после рецензирования 04.08.2025
Принята к публикации 11.08.2025