References

moitvivt

Моделирование, оптимизация и информационные технологии

Modeling, Optimization and Information Technology

2310-6018

Издательство

10.26102/2310-6018/2026.52.1.005

2123

Модель и метод оценки весовых коэффициентов ансамбля машинного обучения в задаче прогнозирования провозной платы железнодорожных грузовых перевозок

Model and method for evaluating the weighting coefficients of an ensemble machine learning model in the task of forecasting railway freight rates

Бухарова

Ксения Алексеевна

Bukharova

Ksenya Alekseevna

bukharova@pgups.ru aff-1

Петербургский государственный университет путей сообщения Императора Александра I Emperor Alexander I St. Petersburg State Transport University

01 01 2026

1 1

10.26102/2310-6018/2026.52.1.005

2026

This work is licensed under a Creative Commons Attribution 4.0 International License

Настоящая статья посвящена вопросу оценки эффективности разработанной ансамблевой модели машинного обучения, применяемой для прогнозирования провозной платы на железнодорожном транспорте. В качестве эмпирической базы использованы данные ОАО «РЖД» за трехлетний период, включающие порядка 50 миллионов записей о грузовых перевозках. Такой массив обеспечивает репрезентативность выборки и позволяет учитывать отраслевое разнообразие данных. На основе алгоритмов Random Forest, XGBoost, LightGBM и CatBoost разработана ансамблевая модель, метауровень которой реализован в виде многомерной линейной регрессии. Для вычисления весовых коэффициентов применены метод наименьших квадратов и регуляризация Тихонова. Данный подход позволил стабилизировать решение и снизить влияние коррелированных выходов базовых моделей. Результаты вычислительных экспериментов показали, что объединение разнородных моделей в ансамбль обеспечивает повышение точности прогнозирования по сравнению с отдельными алгоритмами. Средняя абсолютная ошибка снизилась на 7–13 %, а средняя абсолютная процентная ошибка на 6–12 %, при этом коэффициент детерминации увеличился до 0,942. Дополнительно проведена оценка устойчивости ансамбля методом скользящего окна, что позволило определить горизонты прогнозирования, при которых сохраняется стабильность результатов. Расширенный анализ поведения ансамбля при варьировании входных признаков показал, что модель демонстрирует устойчивость к умеренным искажениям данных и сохраняет высокую воспроизводимость расчетов. Полученные результаты подтверждают практическую значимость предложенного подхода для задач транспортной аналитики, планирования перевозочного процесса и формирования экономически обоснованной тарифной политики.

This article examines the effectiveness of a developed ensemble machine learning model for forecasting rail freight rates. Russian Railways data for a three-year period, comprising approximately 50 million freight shipment records, serves as the empirical base. This dataset ensures a representative sample and accounts for industry-specific data diversity. An ensemble model is developed using the Random Forest, XGBoost, LightGBM, and CatBoost algorithms, with a meta-level implemented as a multivariate linear regression. The ordinary least squares method and Tikhonov regularization are used to calculate the weighting coefficients. This approach stabilizes the solution and reduces the impact of correlated outputs from the base models. Results of computational experiments have shown that combining heterogeneous models into an ensemble improves forecasting accuracy compared to individual algorithms. The average absolute error decreased by 7–13 %, and the average absolute percentage error by 6–12 %, while the determination coefficient increased to 0.942. Additionally, the ensemble's stability was assessed using a sliding window method, which allowed us to determine forecasting horizons that maintain stable results. An extended analysis of the ensemble's behavior with varying input features showed that the model is robust to moderate data distortions and maintains high calculation reproducibility. The obtained results confirm the practical significance of the proposed approach for transport analytics, transportation planning, and the development of economically sound pricing policies.

машинное обучение ансамблевые модели регуляризация Тихонова метод наименьших квадратов точность модели устойчивость модели железнодорожный транспорт

machine learning ensemble models Tikhonov regularization least squares method model accuracy model stability railway transport

Исследование выполнено без спонсорской поддержки.

The study was performed without external funding.

References 1

Загидуллин Р.Р., Хайбуллин А.Н. Прогнозирование транспортной загруженности с использованием методов машинного обучения. Транспорт и информационные технологии. 2025;15(2):202–216. https://doi.org/10.12731/2227-930X-2025-15-2-347

Побирченко В.Р., Побирченко В.В. Теоретические аспекты моделирования социально-экономического развития региона. Ученые записки Крымского федерального университета имени В.И. Вернадского. Экономика и управление. 2025;11(2):170–182.

Вегера Ж.Г. Применение генеративного искусственного интеллекта (ИИ) для анализа образовательных данных и прогнозирования академической успеваемости студентов. Управление образованием: теория и практика. 2024;14(8-1):116–125. https://doi.org/10.25726/j2473-1350-7803-t

Zhou Zh.-H. Ensemble Methods: Foundations and Algorithms. New York: Chapman & Hall/CRC; 2012. 236 p. https://doi.org/10.1201/b12207

Hyndman R.J., Athanasopoulos G. Forecasting: Principles and Practice. Melbourne: OTexts; 2021. 442 p.

Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. New York: Springer; 2009. 745 p. https://doi.org/10.1007/978-0-387-84858-7

Zhang Yu., Ma J., Liang Sh., Li X., Liu J. A Stacking Ensemble Algorithm for Improving the Biases of Forest Aboveground Biomass Estimations from Multiple Remotely Sensed Datasets. GIScience & Remote Sensing. 2022;59(1):234–249. https://doi.org/10.1080/15481603.2021.2023842

Рукомин М.А. Обзор ансамблевых моделей предиктивной аналитики и их сравнение с традиционными ML-подходами. Вестник науки. 2025;1(8):368–373.

Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. Москва: Наука; 1979. 288 с.

Харитонова А.Е. Прогнозирование налоговой нагрузки сельскохозяйственных предприятий методами машинного обучения. Налоги и налогообложение. 2023;(4):28–38. https://doi.org/10.7256/2454-065X.2023.4.43917

The authors declare that there are no conflicts of interest present.