• 2014 год
  • Инфляция: 11.4% √ Безработица: 5.1% √ Рост ВВП: 0.6%
  • МРОТ: 5554 рублей
    Ключевая ставка: 17%
    • Россия в цифрах

      Россия в цифрах

      Статистические данные
    • Мировая экономика в цифрах

      Мировая экономика в цифрах

      Показатели и индикаторы развития мировой экономики.
    • Новости образования

      Новости образования

      Федеральная служба по надзору в сфере образования и науки (Рособрнадзор): список закрытых вузов, новости ЕГЭ

Множественная регрессия

Суть регрессионного анализа: построение математической модели и определение ее статистической надежности.

Вид множественной линейной модели регрессионного анализа:

Y = b0 + b1xi1 + ... + bjxij + ... + bkxik + ei
где ei - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию s.

Назначение множественной регрессии: анализ связи между несколькими независимыми переменными и зависимой переменной.

Экономический смысл параметров множественной регрессии
Коэффициент множественной регрессии bj показывает, на какую величину в среднем изменится результативный признак Y, если переменную Xj увеличить на единицу измерения, т. е. является нормативным коэффициентом.

Матричная запись множественной линейной модели регрессионного анализа:

Y = Xb + e
где Y - случайный вектор - столбец размерности (n x 1) наблюдаемых значений результативного признака (y1, y2,..., yn);
X - матрица размерности [n x (k+1)] наблюдаемых значений аргументов;
b - вектор - столбец размерности [(k+1) x 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели;
e - случайный вектор - столбец размерности (n x 1) ошибок наблюдений (остатков).

На практике рекомендуется, чтобы n превышало k не менее, чем в три раза.

Задачи регрессионного анализа
Основная задача регрессионного анализа заключается в нахождении по выборке объемом n оценки неизвестных коэффициентов регрессии b0, b1,..., bk. Задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных Xi и Y:

  • получить наилучшие оценки неизвестных параметров b0, b1,..., bk;
  • проверить статистические гипотезы о параметрах модели;
  • проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).

Построение моделей множественной регрессии состоит из следующих этапов:

  1. выбор формы связи (уравнения регрессии);
  2. определение параметров выбранного уравнения;
  3. анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения.
Множественная регрессия:
  • Множественная регрессия с одной переменной
  • Множественная регрессия с двумя переменными
  • Множественная регрессия с тремя переменными
Инструкция. Укажите количество данных (количество строк), количество переменных x нажмите Далее.
Количество факторов (x) Количество строк
В данном примере количество факторов равно 3, количество строк равно 4


Пример решения нахождения модели множественной регрессии

Множественная регрессия с двумя переменными

Модель множественной регрессии вида Y = b0 +b1X1 + b2X2;
1) Найтинеизвестные b0, b1,b2 можно, решим систему трехлинейных уравнений с тремя неизвестными b0,b1,b2:
Множественная регрессия для двух переменных формула
Для решения системы можете воспользоваться решение системы методом Крамера
2) Или использовав формулы
Множественная регрессия для трех переменных формула
Для этого строим таблицу вида:

Y x1 x2 (y-yср)2 (x1-x1ср)2 (x2-x2ср)2 (y-yср)(x1-x1ср) (y-yср)(x2-x2ср) (x1-x1ср)(x2-x2ср)
                 
                 
                 
                 

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:
Выборочные дисперсии эмпирических коэффициентов множественной регрессии: формула
Здесь z'jj - j-тый диагональный элемент матрицы Z-1 =(XTX)-1.

Приэтом:

где m - количество объясняющихпеременных модели.
В частности, для уравнения множественной регрессии

Y = b0 + b1X1 + b2X2
с двумя объясняющими переменными используются следующие формулы:


Или

или
,,.
Здесьr12 - выборочный коэффициент корреляции между объясняющимипеременными X1 и X2; Sbj - стандартная ошибкакоэффициента регрессии; S - стандартная ошибка множественной регрессии (несмещенная оценка).
По аналогии с парной регрессией после определения точечных оценокbj коэффициентов βj (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

Доверительный интервал, накрывающий с надежностью (1-α) неизвестное значение параметра βj, определяется как

Доверительный интервал для параметров множественной регрессии

Матричный способ решения

Пример решения. Множественная регрессия.

Множественная регрессия в Excel

Чтобы найти параметры множественной регресии средствами Excel, используется функция ЛИНЕЙН(Y;X;0;1),
где Y - массив для значений Y
где X - массив для значений X (указывается как единый массив для всех значений Хi)

Проверка статистической значимости коэффициентов уравнения множественной регрессии

Как и в случае множественной регрессии, статистическая значимость коэффициентовмножественной регрессии с m объясняющими переменными проверяется на основе t-статистики:

имеющей в данном случае распределение Стьюдента с числом степеней свободы v = n- m-1. При требуемом уровне значимости наблюдаемое значение t-статистики сравнивается с критической точной распределения Стьюдента.
В случае, если , то статистическая значимость соответствующего коэффициента множественной регрессии подтверждается. Это означает, что фактор Xj линейно связан с зависимой переменной Y. Если же установлен факт незначимости коэффициента bj, то рекомендуется исключить из уравнения переменную Xj. Это не приведет к существенной потере качества модели, но сделает ее более конкретной.

Проверка общего качества уравнения множественной регрессии

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R2:
Множественная регрессия
Справедливо соотношение 0<=R2<=1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
Длямножественной регрессии коэффициент детерминации является неубывающей функциейчисла объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2, так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы, т.е. вводится так называемый скорректированный (исправленный) коэффициент детерминации:
коэффициент детерминации
Соотношение может быть представлено вследующем виде:

для m>1. С ростом значения m скорректированный коэффициент детерминации растет медленнее, чем обычный.Очевидно, что только при R2 = 1. может принимать отрицательные значения.
Доказано, что  увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Рекомендуется после проверки общего качества уравнения регрессии провести анализ его статистической значимости. Для этого используется F-статистика:

Показатели F и R2 равны или не равен нулю одновременно. Если F=0, то R2=0, следовательно, величина Y линейно не зависит от X1,X2,…,Xm..Расчетное значение F сравнивается с критическим Fкр. Fкр, исходя из требуемого уровня значимости α и чисел степеней свободы v1 = m и v2 = n - m - 1, определяется на основе распределения Фишера. Если F>Fкр, то R2 статистически значим.

Проверка выполнимости предпосылок МНК множественной регрессии. Статистика Дарбина-Уотсона для множественной регрессии


Статистическая значимость коэффициентов множественной регрессии и близкое к единице значение коэффициента детерминации R2 не гарантируют высокое качество уравнения множественной регрессии. Поэтому следующим этапом проверки качества уравнения множественной регрессии является проверка выполнимости предпосылок МНК. Причины и последствия невыполнимости этих предпосылок, методы корректировки регрессионных моделей будут рассмотрены в последующих главах. В данном параграфе рассмотрим популярную в регрессионном анализе статистику Дарбина-Уотсона.
При статистическом анализе уравнения регрессии на начальном этапе часто проверяют выполнимость одной предпосылки: условия статистической независимости отклонений между собой.

При этом проверяется некоррелированность соседних величин ei,i=1,2,…n..
Для анализа коррелированности отклонений используют статистику Дарбина-Уотсона:
Статистика Дарбина-Уотсона: формула
Критические значения d1 и d2 определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n и количества объясняющих переменных m.

Автоматический расчет

Полностью произвести подобный расчет можно автоматически, используя популярный сервис Множественная регрессия (с оформлением в Word)

Частные коэффициенты корреляции при множественной регрессии

Частные коэффициенты (или индексы) корреляции, измеряющие влияние на у фактора хi при неизменном уровне других факторов определяются по стандартной формуле линейного коэффициента корреляции, т.е. последовательно беруться пары yx1,yx2,... , x1x2, x1x3 и так далее и для каждой пары находится коэффициент корреляции
Вычисления в MS Excel. Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция. Для этого:
1) Выполнить команду Сервис / Анализ данных / Корреляция.
2) Указать диапозон данных;

Проверка общего качества уравнения множественной регрессии

Для этой цели, как и в случае множественной регрессии, используется коэффициентдетерминации R2:
Множественная регрессия
Справедливо соотношение 0 < =R2 < = 1. Чем ближе этот коэффициент к единице, тем больше уравнение множественной регрессии объясняет поведение Y.
Для множественной регрессии коэффициент детерминации является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значение R2, так как каждая последующая переменная может лишь дополнить, но никак не сократить информацию, объясняющую поведениезависимой переменной.
Иногда при расчете коэффициента детерминации для получения несмещенных оценок в числителе и знаменателе вычитаемой из единицы дроби делается поправка на число степеней свободы, т.е. вводится так называемый скорректированный (исправленный) коэффициент детерминации:
коэффициент детерминации
Соотношение может быть представлено в следующем виде:
Скорректированный коэффициент детерминации: формула
для m>1. С ростом значения mскорректированный коэффициент детерминации растет медленнее, чем обычный.Очевидно, что только при R2 = 1. может принимать отрицательные значения.
Доказано, что  увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когда t-статистика для этой переменной по модулю больше единицы. Поэтому добавление в модель новых объясняющих переменных осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.
Рекомендуется после проверки общего качества уравнения регрессии провести анализ его статистической значимости. Для этого используется F-статистика:
F-статистика: формула

Показатели F и R2 равны или не равен нулю одновременно. Если F=0, то R2=0, следовательно, величина Y линейно не зависит от X1,X2,…,Xm.Расчетное значение F сравнивается с критическим Fкр. Fкр, исходя из требуемого уровня значимости α и чисел степеней свободы v1 = m и v2 = n - m - 1, определяется на основе распределения Фишера. Если F > Fкр, то R2 статистически значим.
τ twitter ВКонтакте Ψ facebook
+7 912 459 33 67 594-797-934