Ключевые слова: регрессионная модель, метод наименьших квадратов, мультиколлинеарность, отбор информативных регрессоров, задача частично-булевого линейного программирования
ОТБОР ИНФОРМАТИВНЫХ РЕГРЕССОРОВ С УЧЕТОМ МУЛЬТИКОЛЛИНЕАРНОСТИ МЕЖДУ НИМИ В РЕГРЕССИОННЫХ МОДЕЛЯХ КАК ЗАДАЧА ЧАСТИЧНО-БУЛЕВОГО ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
УДК 519.862.6
DOI:
Статья посвящена проблеме отбора информативных регрессоров в линейной регрессионной модели, точное решение которой может быть гарантировано либо полным перебором всех возможных вариантов регрессий, либо решением специальным образом сформулированной задачи математического программирования с булевыми переменными. Часто задача отбора информативных регрессоров решается с использованием лишь одного критерия адекватности, например, минимизируются только ошибки модели. Но в случае оценивания регрессии с помощью метода наименьших квадратов необходимо стремиться не только к увеличению качества аппроксимации, но и к соблюдению условий теоремы Гаусса – Маркова, одним из которых является отсутствие линейной зависимости между объясняющими переменными. Если это условие не выполняется, то говорят, что имеет место мультиколлинеарность. Таким образом, при отборе информативных регрессоров целесообразно решать двухкритериальную задачу – стремиться максимизировать качество аппроксимации и одновременно минимизировать мультиколлинеарность между объясняющими переменными. Поскольку точных количественных критериев для определения наличия / отсутствия мультиколлинеарности не существует, в данной работе на основе известной рекомендации сформулирован критерий верхней границы мультиколлинеарности. С использованием этого критерия предложены четыре возможные постановки задачи отбора информативных регрессоров, каждая из которых сведена к задаче частично-булевого линейного программирования. Для демонстрации предложенного математического аппарата разработана пробная версия специализированного программного комплекса, с помощью которого решена задача моделирования грузооборота Красноярской железной дороги.
1. Эконометрика / И.И. Елисеева, С.В. Курышева, Т.В. Костеева и др. – М.: Финансы и статистика, 2007. – 576 с.
2. Miller A.J. Subset selection in regression / A.J. Miller. – Chapman & Hall/CRC, 2002. – p. 247.
3. Носков С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных / С.И. Носков. – Иркутск: РИЦ ГП «Облинформпечать», 1996. – 321 с.
4. Айвазян С.А. Методы эконометрики / С.А. Айвазян. – М. : Магистр : ИНФРА-М, 2010. – 512 с.
5. Кремер Н.Ш. Эконометрика / Н.Ш. Кремер, Б.А. Путко. – М.: ЮНИТИДАНА, 2002. – 311 с.
6. Konno H. Choosing the best set of variables in regression analysis using integer programming / H. Konno, R. Yamamoto // Journal of Global Optimization, 2009. Vol. 44, no. 2, pp. 272-282.
7. Park Y.W. Subset selection for multiple linear regression via optimization / Y.W. Park, D. Klabjan // Technical report, 2013. Available from http://www.klabjan.dynresmanagement.com
8. Chung, S. A mathematical programming approach for integrated multiple linear regression subset selection and validation / S. Chung, Y.W. Park, T. Cheong. arXiv.org, 2017. Available from https://arxiv.org/abs/1712.04543.
9. Best subset selection for eliminating multicollinearity / R. Tamura, K. Kobayashi, Y. Takano, R. Miyashiro, K. Nakata, T. Matsui // Journal of the Operations Research Society of Japan. Vol. 60, No. 3, 2017, pp. 321-336.
10. Mixed integer quadratic optimization formulations for eliminating multicollinearity based on variance inflation factor / R. Tamura, K. Kobayashi, Y. Takano, R. Miyashiro, K. Nakata, T. Matsui // Optimization online, 2016. Available from http://www.optimizationonline.org/DB_HTML/2016/09/5655.html.
11. Базилевский М.П. Сведение задачи отбора информативных регрессоров при оценивании линейной регрессионной модели по методу наименьших квадратов к задаче частично-булевого линейного программирования // Моделирование, оптимизация и информационные технологии. – Воронеж, 2018. – Т. 6. – № 1 – URL: https://moit.vivt.ru/wp-content/uploads/2018/01/Bazilevskiy_1_1_18.pdf (дата обращения 10.05.2018).
12. Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. – URL: http://www.machinelearning.ru/wiki/index.php?title=Фактор_инфляции_ре грессии (дата обращения 10.05.2018).
13. Среднесрочное прогнозирование эксплуатационных показателей функционирования Красноярской железной дороги / М.П. Базилевский, И.П. Врублевский, С.И. Носков, И.С. Яковчук // Фундаментальные исследования. – 2016. – №10(3). – С.471-476.
Ключевые слова: регрессионная модель, метод наименьших квадратов, мультиколлинеарность, отбор информативных регрессоров, задача частично-булевого линейного программирования
Для цитирования: Базилевский М.П. ОТБОР ИНФОРМАТИВНЫХ РЕГРЕССОРОВ С УЧЕТОМ МУЛЬТИКОЛЛИНЕАРНОСТИ МЕЖДУ НИМИ В РЕГРЕССИОННЫХ МОДЕЛЯХ КАК ЗАДАЧА ЧАСТИЧНО-БУЛЕВОГО ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ. Моделирование, оптимизация и информационные технологии. 2018;6(2). URL: https://moit.vivt.ru/wp-content/uploads/2018/04/Bazilevskiy_2_18_1.pdf DOI:
Опубликована 30.06.2018