Идентификация автора текста для открытого множества кандидатов в контексте кибербезопасности
Работая с нашим сайтом, вы даете свое согласие на использование файлов cookie. Это необходимо для нормального функционирования сайта, показа целевой рекламы и анализа трафика. Статистика использования сайта отправляется в «Яндекс» и «Google»
Научный журнал Моделирование, оптимизация и информационные технологииThe scientific journal Modeling, Optimization and Information Technology
cетевое издание
issn 2310-6018

Идентификация автора текста для открытого множества кандидатов в контексте кибербезопасности

idРоманов А.С.

УДК 004.89
DOI: 10.26102/2310-6018/2024.44.1.012

  • Аннотация
  • Список литературы
  • Об авторах

В работе рассмотрены методы определения авторства любительских сочинений по мотивам популярных произведений литературы и кинематографа. Данные для проведения исследования включают тексты 5 самых популярных тематик онлайн-библиотеки Ficbook. Наиболее распространенной является задача атрибуции с закрытым набором. Относительно практических задач можно предполагать, что не всегда истинный автор анонимного текста будет присутствовать в списке кандидатов. Поэтому процесс определения автора рассматривался как усложненная модификация классической задачи классификации – приведению к виду открытого множества авторов. Предложенные методы основаны на авторской комбинации fastText и One-Class SVM с отбором информативных признаков и статистических оценках мер сходства векторных представлений. Статистические методы оказались наименее эффективны даже для простого, кросс-тематического, случая, в котором данные методы уступают в точности одноклассовому SVM до 15 %. Для той же кросс-тематической задачи средняя точность авторской методики на основе совместного применения fastText и One-Class SVM составляет 85 %. В сложном случае внутри тематической классификации авторов точность представленной методики варьируется от 75 до 78 % в зависимости от тематической группы.

1. Romanov A., Kurtukova A., Shelupanov A., Fedotova A., Goncharov V. Authorship identification of a Russian-language text using support vector machine and deep neural networks. Future Internet. 2020;13(1):3. DOI: 10.3390/fi13010003.

2. Romanov A., Kurtukova A., Sobolev A., Shelupanov A., Fedotova A. Determining the age of the author of the text based on deep neural network models. Information. 2020;12(11):589. DOI: 10.3390/info11120589.

3. Jafariakinabad F., Kien A. H. Unifying lexical, syntactic, and structural representations of written language for authorship attribution. SN Computer Science. 2021;6(2):481. DOI: 10.1007/s42979-021-00911-2.

4. Mahor U., Aarti K. A Comparative Study of Stylometric Characteristics in Authorship Attribution. Information and Communication Technology for Competitive Strategies (ICTCS 2021) ICT: Applications and Social Interfaces. Singapore, Springer Nature Singapore. 2022. p. 71–81. DOI: 10.1007/978-981-19-0095-2.

5. Fedotova A., Romanov A., Kurtukova A., Shelupanov A. Authorship attribution of social media and literary Russian-language texts using machine learning methods and feature selection. Future Internet. 2021;14(1):4. DOI: 10.3390/fi14010004.

6. PAN: series of scientific events and shared tasks on digital text forensics and stylometry. URL: https://pan.webis.de (дата обращения: 19.01.2024).

7. The 100 Idiolectic Project. URL: https://fold.aston.ac.uk/handle/123456789/17 (дата обращения: 19.01.2024).

8. Najafi M., Tavan E. Text-to-text transformer in authorship verification via stylistic and semantical analysis. Proceedings of the CLEF. 2022. URL: https://ceur-ws.org/Vol-3180/paper-215.pdf (дата обращения: 19.01.2024).

9. Drozdova A., Petrov V. Modern сlassic in the web environment: narrative variations of V. Nabokov’s in fanfiction. Acta Universitatis Sapientiae, Film and Media Studies. 2020;18(1):89–107. DOI: 10.2478/ausfm-2020-0005.

10. Shafirova L., Cassany D., Bach C. Transcultural literacies in online collaboration: a case study of fanfiction translation from Russian into English. Language and Intercultural Communication. 2020;20(6):531–545. DOI: 10.1080/14708477.2020.1812621.

11. Swain S., Mishra G., Sindhu C. Recent approaches on authorship attribution techniques –an overview. In: 2017 International conference of Electronics, Communication and Aerospace Technology (ICECA). IEEE. Coimbatore, India. 2017. p. 557–566. DOI: 10.1109/iceca.2017.8203599.

12. Hedegaard S., Simonsen J.G. Lost in translation: Authorship attribution using frame semantics. In: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. 2011. p. 65–70. URL: https://aclanthology.org/P11-2012.pdf (дата обращения: 19.01.2024).

13. Соколова Т.П. Проблемы экспертной идентификации в судебном автороведении. Вестник Университета имени О.Е. Кутафина (МГЮА). 2022;2(90):67–76.

14. Ficbook: Fanfiction book. URL: https://ficbook.net/ (дата обращения 19.01.2024).

15. Романов А.С. Методы отбора признаков в задаче определения авторства в контексте кибербезопасности. Моделирование, оптимизация и информационные технологии. 2024;12(1). URL: https://moitvivt.ru/ru/journal/pdf?id=1489. DOI: 10.26102/2310-6018/2024.44.1.001.

16. Mohammed A.A., Umaashankar V. Effectiveness of hierarchical softmax in large scale classification tasks. 2018 International Conference on Advances in Computing, Communications and Informatics (ICACCI), IEEE. 2018. p. 1090–1094. DOI: 10.1109/ICACCI.2018.8554637.

17. Lei K., Fu Q., Yang M., Liang Y. Tag recommendation by text classification with attention-based capsule network. Neurocomputing. 2020;391:65–73. DOI: 10.1016/j.neucom.2020.01.091.

18. Suwanda R., Syahputra Z., Zamzami E.M. Analysis of Euclidean distance and Manhattan distance in the K-means algorithm for variations number of centroid K. Journal of Physics: Conference Series, IOP Publishing. 2020;1566(1):012058. DOI: 10.1088/1742-6596/1566/1/012058.

19. Martín-del-Campo-Rodríguez C., Sidorov G., Batyrshin I. Unsupervised authorship attribution using feature selection and weighted cosine similarity. Journal of Intelligent & Fuzzy Systems. 2022;42(5):4357–4367.

20. Park K., Hong J.S., Kim W. A methodology combining cosine similarity with classifier for text classification. Applied Artificial Intelligence. 2020;34(5):396–411. DOI: 10.1080/08839514.2020.1723868.

Романов Александр Сергеевич
кандидат технических наук, доцент

ORCID |

Томский государственный университет систем управления и радиоэлектроники

Томск, Российская Федерация

Ключевые слова: определение автора текста, fastText, машинное обучение, анализ текста, информационная безопасность

Для цитирования: Романов А.С. Идентификация автора текста для открытого множества кандидатов в контексте кибербезопасности. Моделирование, оптимизация и информационные технологии. 2024;12(1). URL: https://moitvivt.ru/ru/journal/pdf?id=1510 DOI: 10.26102/2310-6018/2024.44.1.012

185

Полный текст статьи в PDF

Поступила в редакцию 24.01.2024

Поступила после рецензирования 08.02.2024

Принята к публикации 20.02.2024

Опубликована 31.03.2024