Детектирование машинно-сгенерированных текстов при помощи адаптивной квантильной регрессии

idТюрин А.С., idСараев П.В.

УДК 519.6
DOI: 10.26102/2310-6018/2024.44.1.033

Аннотация
Список литературы
Об авторах

В работе рассматривается задача детектирования машинно-сгенерированных текстов при помощи различных инструментов построения регрессионных моделей – классической линейной регрессии, логистической регрессии и квантильной регрессии. Прогресс в области машинного обучения позволяет создавать все более реалистичные тексты, что открывает возможности для их недобросовестного использования. По мере того, как алгоритмы генерации текстов становятся более сложными, возрастает и сложность задачи детектирования таких текстов, что также требует применения более сложных методов математического моделирования и более эффективных численных методов. Рассматриваемый алгоритм адаптивной квантильной регрессии представляет собой инструмент, который позволяет строить модели с акцентом на различные квантили, что делает его особенно полезным для детектирования нетипичных значений, что может указывать на искусственную природу текстов. Также в работе представлено подробное описание исходного открытого набора данных для обучения моделей, представляющего собой сгенерированные тексты при помощи модели GhatGPT и случайные рукописные тексты c различных форумов, приведен анализ проведенных вычислительных экспериментов. Результаты исследования показывают высокую эффективность предложенного метода в данной прикладной области.

1. He Y., Qiu J., Zhang W., Yuan Z. Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models. URL: http://arxiv.org/abs/2402.01725 (дата обращения: 03.02.2024).

2. Seo Ji-Hoon, Lee Ho-Sun, Choi Jin-Tak. Classification Technique for Filtering Sentiment Vocabularies for the Enhancement of Accuracy of Opinion Mining. International journal of u- and e-service, science and technology. 2015;8(10):11–20. DOI: 10.14257/ijunesst.2015.8.10.02.

3. Sandler M., Choung H., Ross A., David P. A Linguistic Comparison between Human and ChatGPT-Generated Conversations. URL: https://arxiv.org/pdf/2401.16587.pdf (дата обращения: 05.02.2024).

4. Hans A., et al. Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text. URL: https://arxiv.org/pdf/2401.12070.pdf (дата обращения: 04.02.2024).

5. Zheng Qi, Peng Limin, He Xuming. Globally adaptive quantile regression with ultra-high dimensional data. The Annals of Statistics. 2015;43(5):2225–2258. DOI: 10.1214/15-AOS1340.

6. Barrodale I., Roberts F.D.K. An Improved Algorithm for Discrete l1 Linear Approximation. SIAM Journal on Numerical Analysis. 1973;10(5):839–848. DOI: 10.1137/0710069.

7. Chen C. An Adaptive Algorithm for Quantile Regression. В сборнике: Theory and Applications of Recent Robust Methods by ICORS2003: International Conference on Robust Statistics – 2003, 13–18 июля 2003 года, Антверпен, Бельгия. Базель: Springer Basel AG; 2004. C. 39–48.

8. Chen C. A Finite Smoothing Algorithm for Quantile Regression. Journal of Computational and Graphical Statistics. 2007;16(1):136–164. DOI: 10.1198/106186007X180336.

9. Тюрин А.С. Адаптивная квантильная регрессия. Моделирование, оптимизация и информационные технологии. 2024;12(1). URL: https://moitvivt.ru/ru/journal/pdf?id=1514. DOI: 10.26102/2310-6018/2024.44.1.016 (дата обращения: 07.02.2024).

10. Duan T., Avati A., Ding D.Y., Thai K.K., Basu S., Ng A., Schuler A. NGBoost: Natural Gradient Boosting for Probabilistic Prediction. В сборнике: ICML 2020: 37th International Conference on Machine Learning: Proceedings of the 37th International Conference on Machine Learning, 13-18 июля 2020 года, Вена, Австрия. 2020. С. 2690–2700.

11. Тюрин А.С., Сараев П.В. Построение квантильной регрессии с использованием натурального градиентного спуска. Прикладная математика и вопросы управления. 2023;(2):43–52. DOI: 10.15593/2499-9873/2023.2.04.

Тюрин Алексей Сергеевич

ORCID | РИНЦ |

Липецкий государственный технический университет

Липецк, Российская Федерация

Сараев Павел Викторович
доктор технических наук, доцент

ORCID |

Липецкий государственный технический университет

Липецк, Российская Федерация

Ключевые слова: классификация текстов, квантильная регрессия, адаптивный алгоритм, градиентный спуск, математическое моделирование, численные методы

Для цитирования: Тюрин А.С., Сараев П.В. Детектирование машинно-сгенерированных текстов при помощи адаптивной квантильной регрессии. Моделирование, оптимизация и информационные технологии. 2024;12(1). URL: https://moitvivt.ru/ru/journal/pdf?id=1536 DOI: 10.26102/2310-6018/2024.44.1.033

393

Полный текст статьи в PDF

Поступила в редакцию 10.03.2024

Поступила после рецензирования 21.03.2024

Принята к публикации 29.03.2024

Опубликована 31.03.2024