References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2025.51.4.004

1903

Исследование задачи автоматизированного сопоставления аудиофайлов

Study of the problem of automated matching of audio files

0009-0001-5163-1393

Левшин

Денис Витальевич

Levshin

Denis Vitalievich

levshin01@bk.ru aff-1

0009-0004-0391-3849

Быстряков

Даниил Владимирович

Bystryakov

Daniil Vladimirovich

bystriackoff@yandex.ru aff-2

0000-0003-0425-5695

Зубков

Александр Владимирович

Zubkov

Alexander Vladimirovich

aleksandr.zubkov@volgmed.ru aff-3

Волгоградский государственный технический университет ИЦ ТМК Volgograd State Technical University IC TMK

Волгоградский государственный технический университет Volgograd State Technical University

Волгоградский государственный технический университет Волгоградский государственный медицинский университет Volgograd State Technical University Volgograd State Medical University

01 01 2026

1 1

10.26102/2310-6018/2025.51.4.004

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

Объем данных в формате аудиозаписей сильно вырос и продолжает расти, из-за чего с данными становится достаточно сложно работать из-за большого количества различных дубликатов, зашумленных записей, обрезанных записей. В статье представлено решение проблемы поиска нечетких дубликатов аудиозаписей в больших массивах данных. Решение основано на использовании каскадного ансамбля. Для извлечения признаков, анализа временных параметров и оценки сходства между записями использовались сверточные нейронные сети (CNN), сети временных сегментов (TSN), а также сиамские сети. Данные, передаваемые в метод, изначально были преобразованы в изображения формата mel-спектрограмм, созданных с помощью алгоритма кратковременного преобразования Фурье (STFT), то есть каждая аудиозапись нарезалась с определенной частотой дискретизации при условии того, что часть данных имеют связь с предыдущими, преобразовывалась с помощью алгоритма STFT и передавалась в ансамбль моделей. Основное внимание в работе уделено поведению ансамбля с аудиозаписями, которые были подвергнуты различным изменениям, таким как зашумление, искажение, а также обрезка аудиозаписей. Эксперименты, проведенные над набором данных, показали достаточно высокую степень корреляции между результатами, показанными группой людей и методом, что подтверждает эффективность предложенного решения. Метод показал высокую степень устойчивости к различным видам модификации аудиоданных, таких как изменение темпа, добавление шума, а также обрезка аудиозаписей. Дальнейшие исследования могут быть направлены на адаптацию ансамбля к различным типам данных, включая видео и графические записи, что расширит область применения предложенного решения.

The volume of audio recording data has significantly increased and continues to grow, which complicates the processing of such data due to the presence of numerous duplicates, noisy recordings, and truncated audio clips. This article presents a solution to the problem of detecting fuzzy duplicates in large-scale audio datasets. The proposed method is based on the use of a cascaded ensemble. For feature extraction, temporal parameter analysis, and similarity evaluation between recordings, Convolutional Neural Networks (CNN), Temporal Shift Networks (TSN), and Siamese Networks were utilized. The input data were initially converted into mel-spectrogram images using the Short-Time Fourier Transform (STFT) algorithm. Each audio file was segmented at a specific sampling rate, with attention to temporal continuity, transformed using STFT, and then passed through the ensemble of models. The study focuses on the behavior of the ensemble when processing recordings that have undergone various modifications, such as noise addition, distortion, and trimming. Experiments conducted on the dataset demonstrated a high degree of correlation between the results obtained from human evaluators and the method, confirming the effectiveness of the proposed solution. The method showed strong robustness to different types of audio modifications, such as tempo changes, noise injection, and clipping. Future research may aim to adapt the ensemble to other types of data, including video and graphical recordings, which would expand the applicability of the proposed approach.

аудиодубликаты сверточные сети преобразование Фурье аудиошум устойчивость модели мел-спектрограмма сиамская архитектура временные признаки сравнение аудиозаписей

audio duplicates convolutional networks Fourier transform audio noise model robustness mel-spectrogram siamese architecture temporal features comparison of audio recordings

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Кочегурова Е.А., Сайберт С.М., Татьянкина К.В. Оптимизация параметров гибридного алгоритма прогнозирования с использованием ансамбля моделей в режиме реального времени. Известия Томского политехнического университета. Промышленная кибернетика. 2024;2(4):26–33. https://doi.org/10.18799/29495407/2024/4/76

Six J., Bressan F., Renders K. Duplicate Detection for Digital Audio Archive Management: Two Case Studies. In: Advances in Speech and Music Technology: Computational Aspects and Applications. Cham: Springer; 2023. P. 311–329. https://doi.org/10.1007/978-3-031-18444-4_16

Reise W., Fernández X., Dominguez M., Harrington H.A., Beguerisse-Díaz M. Topological Fingerprints for Audio Identification. arXiv. URL: https://arxiv.org/abs/2309.03516 [Accessed 31st July 2025].

Маленко С.А. Увеличение производительности алгоритмов поиска дубликатов аудиозаписей. Молодой ученый. 2017;(49):22–26.

Ryynanen M., Klapuri A. Query by Humming of Midi and Audio Using Locality Sensitive Hashing. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 01 March – 04 April 2008, Las Vegas, NV, USA. IEEE; 2008. P. 2249–2252. https://doi.org/10.1109/ICASSP.2008.4518093

Булавин Д.А., Харитонов И.А. Анализ методов распознавания и преобразования аудиоинформации в ноты. Автоматизированные системы управления и приборы автоматики. 2011;(152):78–82.

Новохрестова Д.И. Временная нормализация слогов алгоритмом динамической трансформации временной шкалы при оценке качества произнесения слогов в процессе речевой реабилитации. Доклады ТУСУР. 2017;20(4):142–145. https://doi.org/10.21293/1818-0442-2017-20-4-142-145

Wang Yi, Lyu X., Yang Sh. Ocean Observing Time-Series Anomaly Detection Based on DTW-TRSAX Method. The Journal of Supercomputing. 2024;80:18679–18704. https://doi.org/10.1007/s11227-024-06183-w

Ustubioglu A., Ustubioglu B., Ulutas G. Mel Spectrogram-Based Audio Forgery Detection Using CNN. Signal, Image and Video Processing. 2023;17(5):2211–2219. https://doi.org/10.1007/s11760-022-02436-4

Zhao H., Ye Ya., Shen X., Liu L. 1D-CNN-Based Audio Tampering Detection Using ENF Signals. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-60813-0

Wang W., Lu Zh. Few-Shot Bronze Vessel Classification via Siamese Fourier Networks. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-69272-z

Lin Ya.-B., Bertasius G. Siamese Vision Transformers Are Scalable Audio-Visual Learners. In: Computer Vision – ECCV 2024: 18th European Conference: Proceedings: Part XIV, 29 September – 04 October 2024, Milan, Italy. Cham: Springer; 2025. P. 303–321. https://doi.org/10.1007/978-3-031-72630-9_18

India M., Fonollosa J.A.R., Hernando J. LSTM Neural Network-Based Speaker Segmentation Using Acoustic and Language Modelling. In: Interspeech 2017: 18th Annual Conference of the International Speech Communication Association, 20–24 August 2017, Stockholm, Sweden. 2017. P. 2834–2838. https://doi.org/10.21437/Interspeech.2017-407

Hershey Sh., Chaudhuri S., Ellis D.P.W., et al. CNN Architectures for Large-Scale Audio Classification. arXiv. URL: https://arxiv.org/abs/1609.09430 [Accessed 11th April 2025].

Ананьев А.С., Бутенко Д.В., Попов К.В. Интеллектуальные технологии проектирования информационных систем. Методика проектирования программных продуктов в условиях наличия прототипа. Инженерный вестник Дона. 2012;(2). URL: http://www.ivdon.ru/ru/magazine/archive/n2y2012/815

Кошелева Н.Н. Корреляционный анализ и его применение для подсчета ранговой корреляции Спирмена. Актуальные проблемы гуманитарных и естественных наук. 2012;(5):23–26.

Меньшов М. Коэффициент корреляции Пирсона. Казанский федеральный университет. URL: https://kpfu.ru/portal/docs/F_2064674290/NPS_19.Pirson.Menshov.pdf (дата обращения: 11.04.2025).

The authors declare that there are no conflicts of interest present.