<?xml version="1.0" encoding="UTF-8"?>
<article article-type="research-article" dtd-version="1.3" xml:lang="ru" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="https://metafora.rcsi.science/xsd_files/journal3.xsd">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">moitvivt</journal-id>
      <journal-title-group>
        <journal-title xml:lang="ru">Моделирование, оптимизация и информационные технологии</journal-title>
        <trans-title-group xml:lang="en">
          <trans-title>Modeling, Optimization and Information Technology</trans-title>
        </trans-title-group>
      </journal-title-group>
      <issn pub-type="epub">2310-6018</issn>
      <publisher>
        <publisher-name>Издательство</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.26102/2310-6018/2025.51.4.004</article-id>
      <article-id pub-id-type="custom" custom-type="elpub">1903</article-id>
      <title-group>
        <article-title xml:lang="ru">Исследование задачи автоматизированного сопоставления аудиофайлов</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Study of the problem of automated matching of audio files</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <contrib-id contrib-id-type="orcid">0009-0001-5163-1393</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Левшин</surname>
              <given-names>Денис Витальевич</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Levshin</surname>
              <given-names>Denis Vitalievich</given-names>
            </name>
          </name-alternatives>
          <email>levshin01@bk.ru</email>
          <xref ref-type="aff">aff-1</xref>
        </contrib>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0009-0004-0391-3849</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Быстряков</surname>
              <given-names>Даниил Владимирович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Bystryakov</surname>
              <given-names>Daniil Vladimirovich</given-names>
            </name>
          </name-alternatives>
          <email>bystriackoff@yandex.ru</email>
          <xref ref-type="aff">aff-2</xref>
        </contrib>
        <contrib contrib-type="author">
          <contrib-id contrib-id-type="orcid">0000-0003-0425-5695</contrib-id>
          <name-alternatives>
            <name name-style="eastern" xml:lang="ru">
              <surname>Зубков</surname>
              <given-names>Александр Владимирович</given-names>
            </name>
            <name name-style="western" xml:lang="en">
              <surname>Zubkov</surname>
              <given-names>Alexander Vladimirovich</given-names>
            </name>
          </name-alternatives>
          <email>aleksandr.zubkov@volgmed.ru</email>
          <xref ref-type="aff">aff-3</xref>
        </contrib>
      </contrib-group>
      <aff-alternatives id="aff-1">
        <aff xml:lang="ru">Волгоградский государственный технический университет ИЦ ТМК</aff>
        <aff xml:lang="en">Volgograd State Technical University IC TMK</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-2">
        <aff xml:lang="ru">Волгоградский государственный технический университет</aff>
        <aff xml:lang="en">Volgograd State Technical University</aff>
      </aff-alternatives>
      <aff-alternatives id="aff-3">
        <aff xml:lang="ru">Волгоградский государственный технический университет Волгоградский государственный медицинский университет</aff>
        <aff xml:lang="en">Volgograd State Technical University Volgograd State Medical University</aff>
      </aff-alternatives>
      <pub-date pub-type="epub">
        <day>01</day>
        <month>01</month>
        <year>2026</year>
      </pub-date>
      <volume>1</volume>
      <issue>1</issue>
      <elocation-id>10.26102/2310-6018/2025.51.4.004</elocation-id>
      <permissions>
        <copyright-statement>Copyright © Авторы, 2026</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="creative-commons-attribution" xlink:href="https://creativecommons.org/licenses/by/4.0/">
          <license-p>This work is licensed under a Creative Commons Attribution 4.0 International License</license-p>
        </license>
      </permissions>
      <self-uri xlink:href="https://moitvivt.ru/ru/journal/article?id=1903"/>
      <abstract xml:lang="ru">
        <p>Объем данных в формате аудиозаписей сильно вырос и продолжает расти, из-за чего с данными становится достаточно сложно работать из-за большого количества различных дубликатов, зашумленных записей, обрезанных записей. В статье представлено решение проблемы поиска нечетких дубликатов аудиозаписей в больших массивах данных. Решение основано на использовании каскадного ансамбля. Для извлечения признаков, анализа временных параметров и оценки сходства между записями использовались сверточные нейронные сети (CNN), сети временных сегментов (TSN), а также сиамские сети. Данные, передаваемые в метод, изначально были преобразованы в изображения формата mel-спектрограмм, созданных с помощью алгоритма кратковременного преобразования Фурье (STFT), то есть каждая аудиозапись нарезалась с определенной частотой дискретизации при условии того, что часть данных имеют связь с предыдущими, преобразовывалась с помощью алгоритма STFT и передавалась в ансамбль моделей. Основное внимание в работе уделено поведению ансамбля с аудиозаписями, которые были подвергнуты различным изменениям, таким как зашумление, искажение, а также обрезка аудиозаписей. Эксперименты, проведенные над набором данных, показали достаточно высокую степень корреляции между результатами, показанными группой людей и методом, что подтверждает эффективность предложенного решения. Метод показал высокую степень устойчивости к различным видам модификации аудиоданных, таких как изменение темпа, добавление шума, а также обрезка аудиозаписей. Дальнейшие исследования могут быть направлены на адаптацию ансамбля к различным типам данных, включая видео и графические записи, что расширит область применения предложенного решения.</p>
      </abstract>
      <trans-abstract xml:lang="en">
        <p>The volume of audio recording data has significantly increased and continues to grow, which complicates the processing of such data due to the presence of numerous duplicates, noisy recordings, and truncated audio clips. This article presents a solution to the problem of detecting fuzzy duplicates in large-scale audio datasets. The proposed method is based on the use of a cascaded ensemble. For feature extraction, temporal parameter analysis, and similarity evaluation between recordings, Convolutional Neural Networks (CNN), Temporal Shift Networks (TSN), and Siamese Networks were utilized. The input data were initially converted into mel-spectrogram images using the Short-Time Fourier Transform (STFT) algorithm. Each audio file was segmented at a specific sampling rate, with attention to temporal continuity, transformed using STFT, and then passed through the ensemble of models. The study focuses on the behavior of the ensemble when processing recordings that have undergone various modifications, such as noise addition, distortion, and trimming. Experiments conducted on the dataset demonstrated a high degree of correlation between the results obtained from human evaluators and the method, confirming the effectiveness of the proposed solution. The method showed strong robustness to different types of audio modifications, such as tempo changes, noise injection, and clipping. Future research may aim to adapt the ensemble to other types of data, including video and graphical recordings, which would expand the applicability of the proposed approach.</p>
      </trans-abstract>
      <kwd-group xml:lang="ru">
        <kwd>аудиодубликаты</kwd>
        <kwd>сверточные сети</kwd>
        <kwd>преобразование Фурье</kwd>
        <kwd>аудиошум</kwd>
        <kwd>устойчивость модели</kwd>
        <kwd>мел-спектрограмма</kwd>
        <kwd>сиамская архитектура</kwd>
        <kwd>временные признаки</kwd>
        <kwd>сравнение аудиозаписей</kwd>
      </kwd-group>
      <kwd-group xml:lang="en">
        <kwd>audio duplicates</kwd>
        <kwd>convolutional networks</kwd>
        <kwd>Fourier transform</kwd>
        <kwd>audio noise</kwd>
        <kwd>model robustness</kwd>
        <kwd>mel-spectrogram</kwd>
        <kwd>siamese architecture</kwd>
        <kwd>temporal features</kwd>
        <kwd>comparison of audio recordings</kwd>
      </kwd-group>
      <funding-group>
        <funding-statement xml:lang="ru">Исследование выполнено без спонсорской поддержки.</funding-statement>
        <funding-statement xml:lang="en">The study was performed without external funding.</funding-statement>
      </funding-group>
    </article-meta>
  </front>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="cit1">
        <label>1</label>
        <mixed-citation xml:lang="ru">Кочегурова Е.А., Сайберт С.М., Татьянкина К.В. Оптимизация параметров гибридного алгоритма прогнозирования с использованием ансамбля моделей в режиме реального времени. Известия Томского политехнического университета. Промышленная кибернетика. 2024;2(4):26–33. https://doi.org/10.18799/29495407/2024/4/76</mixed-citation>
      </ref>
      <ref id="cit2">
        <label>2</label>
        <mixed-citation xml:lang="ru">Six J., Bressan F., Renders K. Duplicate Detection for Digital Audio Archive Management: Two Case Studies. In: Advances in Speech and Music Technology: Computational Aspects and Applications. Cham: Springer; 2023. P. 311–329. https://doi.org/10.1007/978-3-031-18444-4_16</mixed-citation>
      </ref>
      <ref id="cit3">
        <label>3</label>
        <mixed-citation xml:lang="ru">Reise W., Fernández X., Dominguez M., Harrington H.A., Beguerisse-Díaz M. Topological Fingerprints for Audio Identification. arXiv. URL: https://arxiv.org/abs/2309.03516 [Accessed 31st July 2025].</mixed-citation>
      </ref>
      <ref id="cit4">
        <label>4</label>
        <mixed-citation xml:lang="ru">Маленко С.А. Увеличение производительности алгоритмов поиска дубликатов аудиозаписей. Молодой ученый. 2017;(49):22–26.</mixed-citation>
      </ref>
      <ref id="cit5">
        <label>5</label>
        <mixed-citation xml:lang="ru">Ryynanen M., Klapuri A. Query by Humming of Midi and Audio Using Locality Sensitive Hashing. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 01 March – 04 April 2008, Las Vegas, NV, USA. IEEE; 2008. P. 2249–2252. https://doi.org/10.1109/ICASSP.2008.4518093</mixed-citation>
      </ref>
      <ref id="cit6">
        <label>6</label>
        <mixed-citation xml:lang="ru">Булавин Д.А., Харитонов И.А. Анализ методов распознавания и преобразования аудиоинформации в ноты. Автоматизированные системы управления и приборы автоматики. 2011;(152):78–82.</mixed-citation>
      </ref>
      <ref id="cit7">
        <label>7</label>
        <mixed-citation xml:lang="ru">Новохрестова Д.И. Временная нормализация слогов алгоритмом динамической трансформации временной шкалы при оценке качества произнесения слогов в процессе речевой реабилитации. Доклады ТУСУР. 2017;20(4):142–145. https://doi.org/10.21293/1818-0442-2017-20-4-142-145</mixed-citation>
      </ref>
      <ref id="cit8">
        <label>8</label>
        <mixed-citation xml:lang="ru">Wang Yi, Lyu X., Yang Sh. Ocean Observing Time-Series Anomaly Detection Based on DTW-TRSAX Method. The Journal of Supercomputing. 2024;80:18679–18704. https://doi.org/10.1007/s11227-024-06183-w</mixed-citation>
      </ref>
      <ref id="cit9">
        <label>9</label>
        <mixed-citation xml:lang="ru">Ustubioglu A., Ustubioglu B., Ulutas G. Mel Spectrogram-Based Audio Forgery Detection Using CNN. Signal, Image and Video Processing. 2023;17(5):2211–2219. https://doi.org/10.1007/s11760-022-02436-4</mixed-citation>
      </ref>
      <ref id="cit10">
        <label>10</label>
        <mixed-citation xml:lang="ru">Zhao H., Ye Ya., Shen X., Liu L. 1D-CNN-Based Audio Tampering Detection Using ENF Signals. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-60813-0</mixed-citation>
      </ref>
      <ref id="cit11">
        <label>11</label>
        <mixed-citation xml:lang="ru">Wang W., Lu Zh. Few-Shot Bronze Vessel Classification via Siamese Fourier Networks. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-69272-z</mixed-citation>
      </ref>
      <ref id="cit12">
        <label>12</label>
        <mixed-citation xml:lang="ru">Lin Ya.-B., Bertasius G. Siamese Vision Transformers Are Scalable Audio-Visual Learners. In: Computer Vision – ECCV 2024: 18th European Conference: Proceedings: Part XIV, 29 September – 04 October 2024, Milan, Italy. Cham: Springer; 2025. P. 303–321. https://doi.org/10.1007/978-3-031-72630-9_18</mixed-citation>
      </ref>
      <ref id="cit13">
        <label>13</label>
        <mixed-citation xml:lang="ru">India M., Fonollosa J.A.R., Hernando J. LSTM Neural Network-Based Speaker Segmentation Using Acoustic and Language Modelling. In: Interspeech 2017: 18th Annual Conference of the International Speech Communication Association, 20–24 August 2017, Stockholm, Sweden. 2017. P. 2834–2838. https://doi.org/10.21437/Interspeech.2017-407</mixed-citation>
      </ref>
      <ref id="cit14">
        <label>14</label>
        <mixed-citation xml:lang="ru">Hershey Sh., Chaudhuri S., Ellis D.P.W., et al. CNN Architectures for Large-Scale Audio Classification. arXiv. URL: https://arxiv.org/abs/1609.09430 [Accessed 11th April 2025].</mixed-citation>
      </ref>
      <ref id="cit15">
        <label>15</label>
        <mixed-citation xml:lang="ru">Ананьев А.С., Бутенко Д.В., Попов К.В. Интеллектуальные технологии проектирования информационных систем. Методика проектирования программных продуктов в условиях наличия прототипа. Инженерный вестник Дона. 2012;(2). URL: http://www.ivdon.ru/ru/magazine/archive/n2y2012/815</mixed-citation>
      </ref>
      <ref id="cit16">
        <label>16</label>
        <mixed-citation xml:lang="ru">Кошелева Н.Н. Корреляционный анализ и его применение для подсчета ранговой корреляции Спирмена. Актуальные проблемы гуманитарных и естественных наук. 2012;(5):23–26.</mixed-citation>
      </ref>
      <ref id="cit17">
        <label>17</label>
        <mixed-citation xml:lang="ru">Меньшов М. Коэффициент корреляции Пирсона. Казанский федеральный университет. URL: https://kpfu.ru/portal/docs/F_2064674290/NPS_19.Pirson.Menshov.pdf (дата обращения: 11.04.2025).</mixed-citation>
      </ref>
    </ref-list>
    <fn-group>
      <fn fn-type="conflict">
        <p>The authors declare that there are no conflicts of interest present.</p>
      </fn>
    </fn-group>
  </back>
</article>