Квантование языковых моделей без выбросов

Хан С., Кабир А., Лукманов Р.А.

УДК 004.032.26
DOI: 10.26102/2310-6018/2026.55.4.005

Аннотация
Список литературы
Об авторах

По мере того, как модели глубокого обучения, включая большие языковые модели (LLM), становятся частью нашей повседневной жизни, они требуют все больших вычислительных ресурсов. Тяжелые модели нуждаются в значительной вычислительной мощности как для обучения, так и для выполнения выводов. Однако эту нагрузку можно снизить с помощью методов сжатия, таких как квантование. Стандартное квантование некоторых моделей трансформеров сопряжено с риском появления выбросов, что приводит к неточным результатам. В данном исследовании разрабатывается гибридная модель, которая включает использование усеченного софтмакса в модулях внимания модели во время обучения для смягчения влияния выбросов, а затем применение квантования только весов с учетом активаций на обученной модели. Это помогает снизить ошибку квантования за счет масштабирования весов перед квантованием. Показано, что предлагаемый подход позволяет лучше справляться с выбросами, о чем свидетельствует уменьшение куртоза у моделей с квантованием, обученных с усеченным софтмаксом, по сравнению с моделями, обученными стандартным способом. В целом, гибридная методика не только обеспечивает наилучшую итоговую производительность модели (наименьшую перплексию), но и эффективно подавляет выбросы в 5–7 раз по ключевым метрикам, делая модель значительно более устойчивой к процессу квантования.

1. Li P., Yang J., Islam M.A., Ren Sh. Making AI Less "Thirsty": Uncovering and Addressing the Secret Water Footprint of AI Models. arXiv. URL: https://arxiv.org/abs/2304.03271 [Accessed 18th August 2025].

2. Gholami A., Kim S., Dong Zh., et al. A Survey of Quantization Methods for Efficient Neural Network Inference. arXiv. URL: https://arxiv.org/abs/2103.13630 [Accessed 18th August 2025].

3. Dettmers T., Lewis M., Belkada Y., Zettlemoyer L. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. arXiv. URL: https://arxiv.org/abs/2208.07339 [Accessed 18th August 2025].

4. Xiao G., Lin J., Seznec M., et al. SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. arXiv. URL: https://arxiv.org/abs/2211.10438 [Accessed 18th August 2025].

5. Bondarenko Y., Nagel M., Blankevoort T. Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing. arXiv. URL: https://arxiv.org/abs/2306.12929 [Accessed 18th August 2025].

6. Кхан С.А., Шулепина С., Шулепин Д., Лукманов Р.А. Обзор алгоритмических решений для развертывания нейронных сетей на легких устройствах. Компьютерные исследования и моделирование. 2024;16(7):1601–1619. (На англ.). https://doi.org/10.20537/2076-7633-2024-16-7-1601-1619

7. Krishnamoorthi R. Quantizing Deep Convolutional Networks for Efficient Inference: A Whitepaper. arXiv. URL: https://arxiv.org/abs/1806.08342 [Accessed 24th August 2025].

8. Dumitru R.-G., Yadav V., Maheshwary R., et al. Layer-wise Quantization: A Pragmatic and Effective Method for Quantizing LLMs Beyond Integer Bit-levels. arXiv. URL: https://arxiv.org/abs/2406.17415 [Accessed 24th August 2025].

9. Dai S., Venkatesan R., Ren H., et al. VS-Quant: Per-Vector Scaled Quantization for Accurate Low-Precision Neural Network Inference. arXiv. URL: https://arxiv.org/abs/2102.04503 [Accessed 24th August 2025].

10. Nagel M., van Baalen M., Blankevoort T., Welling M. Data-Free Quantization through Weight Equalization and Bias Correction. arXiv. URL: https://arxiv.org/abs/1906.04721 [Accessed 28th August 2025].

11. Guo M., Dai Z., Vrandečić D., Al-Rfou R. Wiki-40B: Multilingual Language Model Dataset. In: Proceedings of the 12th Language Resources and Evaluation Conference, LREC 2020, 11–16 May 2020, Marseille, France. European Language Resources Association; 2020. P. 2440–2452.

12. Zhu Y., Kiros R., Zemel R., et al. Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. In: Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), 07–13 December 2015, Santiago, Chile. IEEE; 2015. P. 19–27. https://doi.org/10.1109/ICCV.2015.11

13. Lin J., Tang J., Tang H., et al. AWQ: Activation-Aware Weight Quantization for LLM Compression and Acceleration. arXiv. URL: https://arxiv.org/abs/2306.00978 [Accessed 24th August 2025].

14. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv. URL: http://arxiv.org/abs/1810.04805 [Accessed 24th August 2025].

Хан Самид Ахмед

Университет Иннополис

Иннополис, Российская Федерация

Кабир А. С. М. Хумаюн

Email: humaun.kabir@phystech.edu

Московский физико-технический институт

Москва, Российская Федерация

Лукманов Рустам Абубакирович

Университет Иннополис

Иннополис, Российская Федерация

Ключевые слова: квантование, выброс, перплексия, внимание, софтмакс, куртозис

Источники финансирования: Данная работа была поддержана Академией наук Республики Татарстан в рамках гранта № 254/2024-PD.

Для цитирования: Хан С., Кабир А., Лукманов Р.А. Квантование языковых моделей без выбросов. Моделирование, оптимизация и информационные технологии. 2026;14(4). URL: https://moitvivt.ru/ru/journal/article?id=2082 DOI: 10.26102/2310-6018/2026.55.4.005 (на англ.)

276

Полный текст статьи в PDF

Скачать JATS XML

Поступила в редакцию 09.02.2026

Поступила после рецензирования 18.03.2026

Принята к публикации 10.04.2026

Опубликована 30.04.2026