Обнаружение фейковых новостей в малоресурсных языках с использованием больших языковых моделей

Кабир А., Кхан С., Харламов А.А., Воронков И.М.

УДК 004.032.26
DOI: 10.26102/2310-6018/2026.57.6.009

Аннотация
Список литературы
Об авторах

Распространение фейковых новостей представляет собой глобальную проблему в цифровую эпоху доступности информации. Языки с богатыми ресурсами активно решают эту проблему благодаря значительным исследовательским усилиям, тогда как языки с ограниченными ресурсами остаются недостаточно охваченными в этом направлении. Бенгальский язык является одним из таких языков с ограниченными вычислительными ресурсами несмотря на то, что он входит в десятку самых распространённых языков мира. С целью внесения вклада в данную область и решения проблемы фейковых новостей, данное исследование сосредоточено на их обнаружении в бенгальском языке с использованием современных достижений в области языковых моделей, включая методы кросс-лингвистического промтинга для повышения качества ответов больших языковых моделей. В работе используются модели с открытым исходным кодом для обеспечения доступности ресурсов, а именно большие языковые модели DeepSeek-R1, Llama 3.2 и Qwen 2.5. Проводится подробный анализ способности каждой модели обнаруживать фейковые новости на бенгальском языке. Результаты показывают, что модель Qwen 2.5 превосходит другие модели в данной задаче, достигая максимальной точности 97,5 %, при этом не демонстрируя неопределённых ответов.

1. Darvin R. Language and identity in the digital age. In: The Routledge Handbook of Language and Identity. Routledge; 2016. P. 523–540.

2. Lee N., Li B.Z., Wang S., et al. Language Models as Fact Checkers? In: Proceedings of the Third Workshop on Fact Extraction and VERification (FEVER), 09 July 2020, Seattle, WA, USA. Association for Computational Linguistics; 2020. P. 36–41. https://doi.org/10.18653/v1/2020.fever-1.5

3. Hoes E., Altay S., Bermeo J. Leveraging ChatGPT for Efficient Fact-Checking. OSF. URL: https://doi.org/10.31234/osf.io/qnjkf [Accessed 19th April 2026].

4. DeepSeek-AI, Guo D., Yang D., et al. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv. URL: https://arxiv.org/abs/2501.12948 [Accessed 19th April 2026].

5. Grattafiori A., Dubey A., Jauhri A., et al. The Llama 3 Herd of Models. arXiv. URL: https://arxiv.org/abs/2407.21783 [Accessed 19th April 2026].

6. Hossain M.Z., Rahman M.A., Islam M.S., et al. BanFakeNews: A Dataset for Detecting Fake News in Bangla. In: Proceedings of the Twelfth Language Resources and Evaluation Conference (LREC 2020), 11–16 May 2020, Marseille, France. European Language Resources Association; 2020. P. 2862–2871. URL: https://aclanthology.org/2020.lrec-1.349

7. Kabir A.S.M.H., Kharlamov A.A., Voronkov I.M. Research Methods for Fake News Detection in Bangla Text. In: Advances in Neural Computation, Machine Learning, and Cognitive Research VII: Selected Papers from the XXV International Conference on Neuroinformatics, 23–27 October 2023, Moscow, Russia. Cham: Springer; 2023. P. 54–60. https://doi.org/10.1007/978-3-031-44865-2_6

8. Shibu H.M., Datta Sh., Miah M.S., et al. From Scarcity to Capability: Empowering Fake News Detection in Low-Resource Languages with LLMs. In: Proceedings of the 31st International Conference on Computational Linguistics, COLING 2025 – Workshops, 19–24 January 2025, Abu Dhabi, UAE. Association for Computational Linguistics; 2025. P. 100–107. URL: https://aclanthology.org/2025.indonlp-1.12

9. Rubin V., Conroy N., Chen Y., et al. Fake News or Truth? Using Satirical Cues to Detect Potentially Misleading News. In: Proceedings of the Second Workshop on Computational Approaches to Deception Detection, 17 June 2016, San Diego, CA, USA. Association for Computational Linguistics; 2016. P. 7–17. https://doi.org/10.18653/v1/W16-0802

10. Hossain E., Kaysar M.N., Jalal Uddin Joy A.Z.M., et al. A Study Towards Bangla Fake News Detection Using Machine Learning and Deep Learning. In: Sentimental Analysis and Deep Learning: Proceedings of ICSADL 2021, 18–19 June 2021, Songkhla, Thailand. Singapore: Springer; 2021. P. 79–95. https://doi.org/10.1007/978-981-16-5157-1_7

11. Shu K., Sliva A., Wang S., et al. Fake News Detection on Social Media: A Data Mining Perspective. ACM SIGKDD Explorations Newsletter. 2017;19(1):22–36. https://doi.org/10.1145/3137597.3137600

12. Vaswani A., Shazeer N., Parmar N., et al. Attention is All You Need. In: Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems, 04–09 December 2017, Long Beach, CA, USA. 2017. P. 5998–6008.

13. Devlin J., Chang M.-W., Lee K., et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2019): Volume 1, 02–07 June 2019, Minneapolis, MN, USA. Association for Computational Linguistics; 2019. P. 4171–4186. https://doi.org/10.18653/v1/N19-1423

14. Qin L., Chen Q., Wei F., et al. Cross-lingual Prompting: Improving Zero-shot Chain-of-Thought Reasoning across Languages. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023), 06–10 December 2023, Singapore. Association for Computational Linguistics; 2023. P. 2695–2709. https://doi.org/10.18653/v1/2023.emnlp-main.163

Кабир А. С. M. Хумаюн

Email: humaun.kabir@phystech.edu

Московский физико-технический институт

Москва, Российская Федерация

Кхан Самеед Ахмед

Университет Иннополис

Иннополис, Российская Федерация

Харламов Александр Александрович
Доктор технических наук, профессор

Московский физико-технический институт

Москва, Российская Федерация

Воронков Илья Михайлович

Московский физико-технический институт

Москва, Российская Федерация

Ключевые слова: фейковые новости, бенгальский язык, большие языковые модели, языки с ограниченными ресурсами, кросс-языковой промтинг

Для цитирования: Кабир А., Кхан С., Харламов А.А., Воронков И.М. Обнаружение фейковых новостей в малоресурсных языках с использованием больших языковых моделей. Моделирование, оптимизация и информационные технологии. 2026;14(6). URL: https://moitvivt.ru/ru/journal/article?id=2368 DOI: 10.26102/2310-6018/2026.57.6.009 (на англ.)

Полный текст статьи в PDF

Скачать JATS XML

Поступила в редакцию 20.04.2026

Поступила после рецензирования 11.06.2026

Принята к публикации 19.06.2026