Ключевые слова: кластеризация текстов, неструктурированные данные, тематическое моделирование, машинное обучение, векторные представления, алгоритмы без учителя, программные фреймворки, интеллектуальный анализ текста
Алгоритмы кластеризации неструктурированных текстов и их реализация в программных системах
УДК 004.912
DOI: 10.26102/2310-6018/2025.50.3.010
Актуальность исследования обусловлена стремительным ростом объема неструктурированных текстов в цифровой среде и необходимостью их систематического анализа. Отсутствие универсальных и легко воспроизводимых решений по группировке текстовой информации затрудняет ее интерпретацию и ограничивает возможности применения в различных прикладных сферах, включая здравоохранение, образование, маркетинг и корпоративный сектор. В связи с этим данная статья направлена на выявление ключевых алгоритмических подходов к кластеризации неструктурированных текстов, а также на анализ программных систем, реализующих соответствующие методы. Ведущий метод исследования основан на сравнительно-аналитическом подходе, позволившем обобщить и классифицировать современные алгоритмы машинного обучения, применяемые для обработки текстовых данных. В работе рассмотрены как традиционные методы кластеризации, так и современные архитектуры, использующие обучение без учителя, числовые векторные представления и нейросетевые модели. Проанализированы программные инструменты, демонстрирующие различные уровни точности, интерпретируемости и адаптивности. В результате систематизированы критерии выбора методов под конкретные задачи, выявлены ограничения существующих подходов и обозначены перспективные направления развития. Материалы статьи могут быть полезны специалистам, занимающимся проектированием и внедрением программных решений для автоматической обработки и анализа текстовой информации.
1. Arnarsson I.Ö., Frost O., Gustavsson E., Jirstrand M., Malmqvist J. Natural Language Processing Methods for Knowledge Management–Applying Document Clustering for Fast Search and Grouping of Engineering Documents. Concurrent Engineering: Research and Applications. 2021;29(2):142–152. https://doi.org/10.1177/1063293X20982973
2. Voskergian D., Jayousi R., Yousef M. Topic Selection for Text Classification Using Ensemble Topic Modeling with Grouping, Scoring, and Modeling Approach. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-74022-2
3. Ковтун Д.Б. Исследование внутриведомственного взаимодействия органов власти РФ на основе документов стратегического планирования с помощью технологии Text Mining. Московский экономический журнал. 2021;(2). https://doi.org/10.24412/2413-046X-2021-10119
4. Shi H., Sakai T. Self-Supervised and Few-Shot Contrastive Learning Frameworks for Text Clustering. IEEE Access. 2023;11:84134–84143. https://doi.org/10.1109/ACCESS.2023.3302913
5. Tulli S.K.C. Enhancing Software Architecture Recovery: A Fuzzy Clustering Approach. International Journal of Modern Computing. 2024;7(1):141–153.
6. Khodeir N., Elghannam F. Efficient Topic Identification for Urgent MOOC Forum Posts Using BERTopic and Traditional Topic Modeling Techniques. Education and Information Technologies. 2025;30:5501–5527. https://doi.org/10.1007/s10639-024-13003-4
7. Grootendorst M. BERTopic: Neural Topic Modeling with a Class-Based TF-IDF Procedure. arXiv. URL: https://arxiv.org/abs/2203.05794 [Accessed 24th May 2025].
8. Cozzolino I., Ferraro M.B. Document Clustering. WIREs Computational Statistics. 2022;14(6). https://doi.org/10.1002/wics.1588
9. Kavitha D., Anandha Mala G.S., Padmavathi B., Varshni S.V. Text Mining: Clustering Using BERT and Probabilistic Topic Modeling. Social Informatics Journal. 2023;2(2):1–13. https://doi.org/10.58898/sij.v2i2.01-13
10. Subakti A., Murfi H., Hariadi N. The Performance of BERT as Data Representation of Text Clustering. Journal of Big Data. 2022;9. https://doi.org/10.1186/s40537-022-00564-9
11. Ahmed M.H., Tiun S., Omar N., Sani N.S. Short Text Clustering Algorithms, Application and Challenges: A Survey. Applied Sciences. 2023;13(1). https://doi.org/10.3390/app13010342
12. Маслова М.А. Автоматизированный подход к отбору предложений для генерации тестовых заданий. Computational Nanotechnology. 2024;11(2):29–34. https://doi.org/10.33693/2313-223X-2024-11-2-29-34
13. Probierz B., Kozak J., Hrabia A. Clustering of Scientific Articles Using Natural Language Processing. Procedia Computer Science. 2022;207:3449–3458. https://doi.org/10.1016/j.procs.2022.09.403
14. Muennighoff N., Tazi N., Magne L., Reimers N. MTEB: Massive Text Embedding Benchmark. arXiv. URL: https://arxiv.org/abs/2210.07316 [Accessed 24th May 2025].
15. Yan H., Gui L., He Yu. Hierarchical Interpretation of Neural Text Classification. Computational Linguistics. 2022;48(4):987–1020. https://doi.org/10.1162/coli_a_00459
16. Ali Bukar U., Sayeed M.S., Razak S.F.A., Yogarayan S., Amodu O.A., Mahmood R.A.R. A Method for Analyzing Text Using VOSviewer. MethodsX. 2023;11. https://doi.org/10.1016/j.mex.2023.102339
17. Анферова М.С., Белевцев А.М. Разработка алгоритмов интеллектуального сервиса поиска и мониторинга информации. Известия ЮФУ. Технические науки. 2021;(3):6–17. https://doi.org/10.18522/2311-3103-2021-3-6-17
18. Заббаров З.Р., Волков А.К. Метод выявления актуальных тем тренажерной подготовки пилотов на основе кластеризации отчетов по безопасности полетов. Научный вестник МГТУ ГА. 2024;27(4):34–49. https://doi.org/10.26467/2079-0619-2024-27-4-34-49
19. Губанов А.Р., Данилов А.А., Исаев Ю.Н., Губанова Г.Ф. Проблемы извлечения слабоструктурированной текстовой информации на основе технологии Text Mining (на материале русского и чувашского языков). Филологические науки. Вопросы теории и практики. 2024;17(9):3085–3090. https://doi.org/10.30853/phil20240437
20. Khan W., Kumar T., Zhang Ch., Raj K., Roy A.M., Luo B. SQL and NoSQL Database Software Architecture Performance Analysis and Assessments–A Systematic Literature Review. Big Data and Cognitive Computing. 2023;7(2). https://doi.org/10.3390/bdcc7020097
21. Mehta V., Bawa S., Singh J. WEClustering: Word Embeddings Based Text Clustering Technique for Large Datasets. Complex & Intelligent Systems. 2021;7(6):3211–3224. https://doi.org/10.1007/s40747-021-00512-9
22. Зеленков Ю.А., Анисичкина Е.А. Динамика исследований в области интеллектуального анализа данных: тематический анализ публикаций за 20 лет. Бизнес-информатика. 2021;15(1):30–46. (На англ.). https://doi.org/10.17323/2587-814X.2021.1.30.46
23. Park Ju.Yo., Mistur E., Kim D., Mo Yu., Hoefer R. Toward Human-Centric Urban Infrastructure: Text Mining for Social Media Data to Identify the Public Perception of COVID-19 Policy in Transportation Hubs. Sustainable Cities and Society. 2022;76. https://doi.org/10.1016/j.scs.2021.103524
24. Rashid Ju., Kim Ju., Hussain A., Naseem U., Juneja S. A Novel Multiple Kernel Fuzzy Topic Modeling Technique for Biomedical Data. BMC Bioinformatics. 2022;23. https://doi.org/10.1186/s12859-022-04780-1
25. Goh K.H., Wang L., Yeow A.Yo.K., et al. Artificial Intelligence in Sepsis Early Prediction and Diagnosis Using Unstructured Data in Healthcare. Nature Communications. 2021;12. https://doi.org/10.1038/s41467-021-20910-4
26. Melton Ch.A., Olusanya O.A., Ammar N., Shaban-Nejad A. Public Sentiment Analysis and Topic Modeling Regarding COVID-19 Vaccines on the Reddit Social Media Platform: A Call to Action for Strengthening Vaccine Confidence. Journal of Infection and Public Health. 2021;14(10):1505–1512. https://doi.org/10.1016/j.jiph.2021.08.010
27. Alzate M., Arce-Urriza M., Cebollada J. Mining the Text of Online Consumer Reviews to Analyze Brand Image and Brand Positioning. Journal of Retailing and Consumer Services. 2022;67. https://doi.org/10.1016/j.jretconser.2022.102989
28. Fayou S., Ngo H.Ch., Sek Yo.W., Meng Z. Clustering Swap Prediction for Image-Text Pre-Training. Scientific Reports. 2024;14. https://doi.org/10.1038/s41598-024-60832-x
Ключевые слова: кластеризация текстов, неструктурированные данные, тематическое моделирование, машинное обучение, векторные представления, алгоритмы без учителя, программные фреймворки, интеллектуальный анализ текста
Для цитирования: Кондаков В.С., Кузнецова А.В. Алгоритмы кластеризации неструктурированных текстов и их реализация в программных системах. Моделирование, оптимизация и информационные технологии. 2025;13(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1970 DOI: 10.26102/2310-6018/2025.50.3.010
Поступила в редакцию 25.05.2025
Поступила после рецензирования 23.06.2025
Принята к публикации 03.07.2025