Ключевые слова: временной ряд, генерация аннотаций, LLM, мультиагентная система, дашборды
Исследование и оценка качества аннотаций на естественном языке, сгенерированных мультиагентной системой
УДК 004.89
DOI: 10.26102/2310-6018/2025.50.3.009
Исследование посвящено оценке качества аннотаций на русском языке, сгенерированных мультиагентной системой для анализа временных рядов. Система состоит из четырех специализированных независимых агентов: аналитик дашборда, аналитик временного ряда, доменно-специфичный агент и агент для взаимодействия с пользователем. Аннотации генерируются на основе данных дашборда и временного ряда, анализируемых с использованием модели GPT-4o-mini и графа задач для агентов на базе LangGraph. Оценка качества аннотаций проводилась по метрикам понятности, читаемости, контекстуальной уместности и грамотности, а также с использованием адаптированной формулы индекса удобочитаемости Флеша для русского языка. Было разработано тестирование и проведено с участием 21 пользователя на 10 дашбордах – итого 210 оценок по десятибалльной шкале для каждого из показателей. Проведенная оценка и результаты показали эффективность аннотаций: понятность – 8,486, читаемость – 8,705, соответствие контексту – 8,890, грамотность – 8,724. Индекс удобочитаемости составил 33,6, что показывает среднюю сложность текста. Но такой показатель связан со спецификой области исследования и не учитывает расположение слов и их контекст, а только статические показатели длины. Взрослый человек и неспециалист в этой области способен воспринимать сложные слова в аннотации, что доказывают другие оценки. Все оставленные пользователями замечания будут учтены для улучшения формата и интерактивности системы в дальнейшем исследовании.
1. Gkatzia D., Lemon O., Rieser V. Natural Language Generation Enhances Human Decision-Making with Uncertain Information. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016: Volume 2: Short Papers, 07–12 August 2016, Berlin, Germany. Association for Computational Linguistics; 2016. P. 264–268. https://doi.org/10.18653/v1/P16-2043
2. Jiang Yu., Pan Z., Zhang X., et al. Empowering Time Series Analysis with Large Language Models: A Survey. In: Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence Survey Track, IJCAI 2024, 03–09 August 2024, Jeju, South Korea. 2024. P. 8095–8103. https://doi.org/10.24963/ijcai.2024/895
3. Tang F., Ding Yi. Are Large Language Models Useful for Time Series Data Analysis? arXiv. URL: https://doi.org/10.48550/arXiv.2412.12219 [Accessed 15th May 2025].
4. Jin M., Zhang Yi., Chen W., et al. Position: What Can Large Language Models Tell Us About Time Series Analysis. In: Proceedings of the 41st International Conference on Machine Learning, ICML 2024, 21–27 July 2024, Vienna, Austria. 2024. https://doi.org/10.48550/arXiv.2402.02713
5. Lin M., Chen Zh., Liu Ya., et al. Decoding Time Series with LLMs: A Multi-Agent Framework for Cross-Domain Annotation. arXiv. URL: https://doi.org/10.48550/arXiv.2410.17462 [Accessed 15th May 2025].
6. Sycara K.P. Multiagent Systems. AI Magazine. 1998;19(2):79. https://doi.org/10.1609/aimag.v19i2.1370
7. Ghylsels E., Osborn D.R. The Econometric Analysis of Seasonal Time Series. New York: Cambridge University Press; 2001. 228 p.
8. Jebb A.T., Tay L., Wang W., Huang Q. Time Series Analysis for Psychological Research: Examining and Forecasting Change. Frontiers in Psychology. 2015;6. https://doi.org/10.3389/fpsyg.2015.00727
9. Darban Z.Z., Webb G.I., Pan Sh., Aggarwal Ch., Salehi M. Deep Learning for Time Series Anomaly Detection: A Survey. ACM Computing Surveys. 2024;57(1). https://doi.org/10.1145/3691338
10. Orgad H., Toker M., Gekhman Z., et al. LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations. In: The Thirteenth International Conference on Learning Representations, ICLR 2025, 24–28 April 2025, Singapore. 2025. https://doi.org/10.48550/arXiv.2410.02707
11. Štajner S., Evans R., Orasan C., Mitkov R. What Can Readability Measures Really Tell Us About Text Complexity? In: Proceedings of the Eighth International Conference on Language Resources and Evaluation, LREC 2012, 23–25 May 2012, Istanbul, Turkey. European Language Resources Association (ELRA); 2012. P. 14–21.
Ключевые слова: временной ряд, генерация аннотаций, LLM, мультиагентная система, дашборды
Для цитирования: Кузнецова А.И., Носкин В.В. Исследование и оценка качества аннотаций на естественном языке, сгенерированных мультиагентной системой. Моделирование, оптимизация и информационные технологии. 2025;13(3). URL: https://moitvivt.ru/ru/journal/pdf?id=1967 DOI: 10.26102/2310-6018/2025.50.3.009
Поступила в редакцию 28.05.2025
Поступила после рецензирования 26.06.2025
Принята к публикации 01.07.2025