Ключевые слова: регрессионная модель, метод наименьших квадратов, отбор информативных регрессоров, задача частично-булевого линейного программирования, стандартизованная регрессия, коэффициент корреляции, критерий детерминации
СВЕДЕНИЕ ЗАДАЧИ ОТБОРА ИНФОРМАТИВНЫХ РЕГРЕССОРОВ ПРИ ОЦЕНИВАНИИ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ ПО МЕТОДУ НАИМЕНЬШИХ КВАДРАТОВ К ЗАДАЧЕ ЧАСТИЧНО-БУЛЕВОГО ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ
УДК 519.862.6
DOI:
Одной из главных проблем в регрессионном анализе является проблема выбора структурной спецификации регрессионной модели, т.е. выбора состава переменных и математической формы связи между ними. В случае линейной регрессионной модели такая задача сводится только лишь к отбору наиболее информативных регрессоров. Точное решение задачи отбора информативных регрессоров при оценивании линейной регрессии с помощью метода наименьших квадратов может быть получено либо алгоритмом полного перебора, либо посредством введения в рассмотрение булевых переменных и последующем решении весьма непростой вычислительной задачи частично-булевого квадратичного программирования. В данной статье задача отбора информативных регрессоров в линейной регрессии, оцениваемой с помощью метода наименьших квадратов, сведена к задаче частично-булевого линейного программирования, решение которой не вызывает никаких затруднений при использовании соответствующих пакетов программ. Новая постановка задачи предполагает для оценивания неизвестных параметров линейной регрессионной модели производить предварительное нормирование всех переменных с целью нахождения бета-коэффициентов стандартизованной регрессии. Бета-коэффициенты определяются по известной интеркорреляционной матрице и вектору корреляций между зависимой переменной и независимыми факторами. Для оценки адекватности линейной регрессии применяется коэффициент детерминации.
1. Miller, A.J. Subset selection in regression / A.J. Miller. – Chapman & Hall/CRC, 2002. – p. 247.
2. Burnham, K.P. Model selection and multimodel inference: a practical information theoretic approach / K.P. Burnham, D.R. Anderson. – Springer, 2002. – P. 515.
3. Себер, Дж. Линейный регрессионный анализ / Дж. Себер. – М.: Издательство «Мир», 1980. – 456 с
4. Стрижов, В.В. Методы выбора регрессионных моделей / В.В. Стрижов, Е.А. Крымова. – М.: Вычислительный центр РАН, 2010. – 60 с.
5. Liu, H. Computational methods of feature selection / H. Liu, H. Motoda. – Chapman and Hall/CRC, 2007. – 419 p
6. Guyon, I. An introduction to variable and feature selection / I. Guyon, A. Elisseeff // Journal of machine learning research, 2003. – Vol. 3. – Pp. 1157- 1182.
7. Ивахненко, А.Г. Индуктивный метод самоорганизации моделей сложных систем / А.Г. Ивахненко. – Киев: Наукова думка, 1981. – 296 с.
8. Konno, H. Choosing the best set of variables in regression analysis using integer programming / H. Konno, R. Yamamoto // Journal of Global Optimization, 2009. Vol. 44, no. 2, pp. 272-282.
9. Park, Y.W. Subset selection for multiple linear regression via optimization / Y.W. Park, D. Klabjan // Technical report, 2013. Available from http://www.klabjan.dynresmanagement.com.
10. Tamura, R. Mixed integer quadratic optimization formulations for eliminating multicollinearity based on variance inflation factor / R. Tamura, K. Kobayashi, Y. Takano, R. Miyashiro, K. Nakata, T. Matsui // Optimization online, 2016. Available from http://www.optimizationonline.org/DB_HTML/2016/09/5655.html.
11. Chung, S. A mathematical programming approach for integrated multiple linear regression subset selection and validation / S. Chung, Y.W. Park, T. Cheong. arXiv.org, 2017. Available from https://arxiv.org/abs/1712.04543.
12. Miyashiro, R. Mixed integer second-order cone programming formulations for variable selection / R. Miyashiro, Y. Takano // Technical Report, 2013. Available from http://www.me.titech.ac.jp/technicalreport/h25/2013-7.pdf.
13. Miyashiro, R. Subset selection by Mallows’ Cp: a mixed integer programming approach / R. Miyashiro, Y. Takano. Technical report, 2014. Available from http://www.me.titech.ac.jp/technicalreport/h26/2014-1.pdf.
14. Носков, С.И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных / С.И. Носков. – Иркутск: РИЦ ГП «Облинформпечать», 1996. – 321 с.
15. Елисеева И.И. Эконометрика / И.И. Елисеева, С.В. Курышева, Т.В. Костеева и др. – М.: Финансы и статистика, 2007. – 576 с.
16. Фёрстер, Э. Методы корреляционного и регрессионного анализа / Э. Фёрстер, Б. Рёнц. – М.: Финансы и статистика, 1983. – 303 с.
Ключевые слова: регрессионная модель, метод наименьших квадратов, отбор информативных регрессоров, задача частично-булевого линейного программирования, стандартизованная регрессия, коэффициент корреляции, критерий детерминации
Для цитирования: Базилевский М.П. СВЕДЕНИЕ ЗАДАЧИ ОТБОРА ИНФОРМАТИВНЫХ РЕГРЕССОРОВ ПРИ ОЦЕНИВАНИИ ЛИНЕЙНОЙ РЕГРЕССИОННОЙ МОДЕЛИ ПО МЕТОДУ НАИМЕНЬШИХ КВАДРАТОВ К ЗАДАЧЕ ЧАСТИЧНО-БУЛЕВОГО ЛИНЕЙНОГО ПРОГРАММИРОВАНИЯ. Моделирование, оптимизация и информационные технологии. 2018;6(1). URL: https://moit.vivt.ru/wp-content/uploads/2018/01/Bazilevskiy_1_1_18.pdf DOI:
Опубликована 31.03.2018