Идентификация автора текста для открытого множества кандидатов в контексте кибербезопасности
Работая с сайтом, я даю свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта обрабатывается системой Яндекс.Метрика
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Идентификация автора текста для открытого множества кандидатов в контексте кибербезопасности

idРоманов А.С.

УДК 004.89
DOI: 10.26102/2310-6018/2024.44.1.012

  • Аннотация
  • Список литературы
  • Об авторах

В работе рассмотрены методы определения авторства любительских сочинений по мотивам популярных произведений литературы и кинематографа. Данные для проведения исследования включают тексты 5 самых популярных тематик онлайн-библиотеки Ficbook. Наиболее распространенной является задача атрибуции с закрытым набором. Относительно практических задач можно предполагать, что не всегда истинный автор анонимного текста будет присутствовать в списке кандидатов. Поэтому процесс определения автора рассматривался как усложненная модификация классической задачи классификации – приведению к виду открытого множества авторов. Предложенные методы основаны на авторской комбинации fastText и One-Class SVM с отбором информативных признаков и статистических оценках мер сходства векторных представлений. Статистические методы оказались наименее эффективны даже для простого, кросс-тематического, случая, в котором данные методы уступают в точности одноклассовому SVM до 15 %. Для той же кросс-тематической задачи средняя точность авторской методики на основе совместного применения fastText и One-Class SVM составляет 85 %. В сложном случае внутри тематической классификации авторов точность представленной методики варьируется от 75 до 78 % в зависимости от тематической группы.

Ключевые слова: определение автора текста, fastText, машинное обучение, анализ текста, информационная безопасность

Для цитирования: Романов А.С. Идентификация автора текста для открытого множества кандидатов в контексте кибербезопасности. Моделирование, оптимизация и информационные технологии. 2024;12(1). URL: https://moitvivt.ru/ru/journal/pdf?id=1510 DOI: 10.26102/2310-6018/2024.44.1.012

338

Полный текст статьи в PDF

Поступила в редакцию 24.01.2024

Поступила после рецензирования 08.02.2024

Принята к публикации 20.02.2024

Опубликована 31.03.2024