Парная линейная регрессия и метод наименьших квадратов (МНК)

Краткая теория


Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.

Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:

где  – среднее значение результативного признака  при определенном значении факторного признака ;

 – свободный член уравнения;

 – коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения – вариация , приходящаяся на единицу вариации .

Параметры уравнения  находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных  от выровненных :

Для нахождения минимума данной функции приравняем к нулю ее частные производные.

В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

Решая эту систему в общем виде, получим:

Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:

или

 

Если коэффициент линейной корреляции  уже рассчитан, то легко может быть найден коэффициент  парной регрессии:

где ,  – стандартные отклонения.

Смежные темы решебника:

Примеры решения задач


Пример 1

Скачать пример 1 в формате pdf

Имеются следующие данные о цене на нефть  (ден. ед.) и индексе акций нефтяных компаний  (усл. ед.).

Цена на нефть (ден. ед.) 17,28 17,05 18,30 18,80 19,20 18,50
Индекс акций (усл. ед.) 537 534 550 555 560 552
  • Построить корреляционное поле.
  • Предполагая, что между переменными x и y существует линейная зависимость, найти уравнение линейной регрессии  
  • Оценить тесноту связи.

Решение

Построим корреляционное поле, для этого отметим в системе координат 6 точек, соответствующих данным парам значений этих признаков.

Корреляционное поле и линия регрессии

Расположение точек на рисунке показывает, что зависимость между компонентами  и  двумерной дискретной случайной величины может выражаться линейным уравнением регрессии .

Составим расчетную таблицу:

Расчетная вспомогательная таблица

1 17,28 537 298,5984 288369 9279,36
2 17,05 534 290,7025 285156 9104,7
3 18,3 550 334,89 302500 10065
4 18,8 555 353,44 308025 10434
5 19,2 560 368,64 313600 10752
6 18,5 552 342,25 304704 10212
Сумма 109,13 3288 1988,521 1802354 59847,06

Коэффициенты уравнения регрессии  можно найти методом наименьших квадратов, решив систему нормальных уравнений:

На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение), а также онлайн-помощь на экзамене или зачете. Для этого вам нужно только связаться со мной:

Телеграм @helptask
ВКонтакте (vk.com/task100)
WhatsApp +7 (968) 849-45-98

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту.

Подробное решение получите точно в срок или раньше.

Подставляя в систему уравнений числовые значения, получаем:

Решая систему уравнений, получаем:

Уравнение парной линейной регрессии:

 

Коэффициент линейной корреляции вычислим по формуле:

Вывод

Таким образом уравнение линейной регрессии, устанавливающее зависимость между ценой на нефть и индексом акций имеет вид  - с увеличением цены на нефть на 1 ден.ед. цена акций увеличивается на 12,078 ед. Коэффициент корреляции очень близок к единице - между исследуемыми величинами существует очень тесная связь.


Пример 2

Скачать пример 2 в формате pdf

По территории региона приводятся данные за 2011 г.

Требуется:

1. Построить линейное уравнение парной регрессии от .

2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции с помощью –критерия Фишера и –критерия Стьюдента.

4. Выполнить прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума , составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб. Среднедневная заработная плата, руб.
1 75 133
2 78 125
3 81 129
4 93 153
5 86 140
6 77 135
7 85 135
8 77 132
9 89 161
10 95 159
11 72 120
12 115 160

Решение

1) Для расчета параметров уравнения линейной регрессии строим расчетную таблицу:


1 75 133 9975 5625 17689 129,808 3,192 10,189 2,400
2 78 125 9750 6084 15625 132,844 -7,844 61,528 6,275
3 81 129 10449 6561 16641 135,88 -6,88 47,334 5,333
4 93 153 14229 8649 23409 148,024 4,976 24,761 3,252
5 86 140 12040 7396 19600 140,94 -0,94 0,884 0,671
6 77 135 10395 5929 18225 131,832 3,168 10,036 2,347
7 85 135 11475 7225 18225 139,928 -4,928 24,285 3,650
8 77 132 10164 5929 17424 131,832 0,168 0,028 0,127
9 89 161 14329 7921 25921 143,976 17,024 289,817 10,574
10 95 159 15105 9025 25281 150,048 8,952 80,138 5,630
11 72 120 8640 5184 14400 126,772 -6,772 45,860 5,643
12 115 160 18400 13225 25600 170,288 -10,288 105,843 6,430
Итого 1023 1682 144951 88753 238040

700,703 52,334
Среднее значение 85,250 140,167 12079,250 7396,083 19836,667


4,361
128,521 189,972






11,337 13,783






Получено уравнение регрессии

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 1.012 руб.


2) Теснота линейной связи оценивается с помощью коэффициента корреляции:

;

Это означает, что 69.2% вариации заработной платы объясняется вариацией фактора –среднедушевого прожиточного минимума.

Качество модели можно оценить с помощью средней ошибки аппроксимации:

Качество построенной модели оценивается как хорошее, так как средняя ошибка аппроксимации не превышает 8-10%.


На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение), а также онлайн-помощь на экзамене или зачете. Для этого вам нужно только связаться со мной:

Телеграм @helptask
ВКонтакте (vk.com/task100)
WhatsApp +7 (968) 849-45-98

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту.

Подробное решение получите точно в срок или раньше.

3) Рассчитаем критерий.

Гипотеза о статистической незначимости уравнения регрессии отклоняется.


Оценку статистической значимости параметров регрессии проведем с помощью –статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Выдвигаем гипотезу о статистически незначимом отличии показателей от нуля:

для числа степеней свободы и составит 2,23

Определим случайные ошибки

Тогда:

Фактическое значение t -статистики превосходит табличное значение. Нулевая гипотеза отклоняется – то есть коэффициент не случайно отличается от нуля, а статистически значим.

Фактическое значение t -статистики превосходит табличное значение. Нулевая гипотеза отклоняется – то есть коэффициент не случайно отличается от нуля, а статистически значим.

Фактическое значение t -статистики превосходит табличное значение. Нулевая гипотеза отклоняется – то есть не случайно отличается от нуля, а статистически значим.

Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы:

или

или


4) Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит

руб., тогда прогнозное значение среднедневной заработной платы составит:

руб.


5) Ошибка прогноза составит:

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

руб.

Доверительный интервал прогноза:

руб.


6) Построим исходные данные и теоретическую прямую:


Пример 3

Скачать пример 3 в формате pdf

По корреляционной таблице найти уравнения прямых регрессий на и на . Построить корреляционное поле и прямые регрессии. Оценить тесноту линейной связи в процентах.

10 15 20 25 30 35
40 2 4 - - - -
50 - 3 7 - - -
60 - - 5 30 10 -
70 - - 7 10 8 -
80 - - - 5 6 3

Решение

Вычислим частоты в столбцах и строках корреляционной таблицы:

10 15 20 25 30 35
40 2 4 - - - - 6
50 - 3 7 - - - 10
60 - - 5 30 10 - 45
70 - - 7 10 8 - 25
80 - - - 5 6 3 14
2 7 19 45 24 3 100

На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение), а также онлайн-помощь на экзамене или зачете. Для этого вам нужно только связаться со мной:

Телеграм @helptask
ВКонтакте (vk.com/task100)
WhatsApp +7 (968) 849-45-98

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту.

Подробное решение получите точно в срок или раньше.

Вычислим среднюю :

Вычислим дисперсию.

Средняя квадратов:

Дисперсия:

Среднее квадратическое отклонение:

Вычислим среднюю :

Вычислим дисперсию.

Средняя квадратов:

Дисперсия:

Среднее квадратическое отклонение:



Вычислим коэффициент корреляции:

Найдем уравнение регрессии на :

Подставляя в формулу числовые значения, получаем:

Окончательно, уравнение на имеет вид:

Найдем уравнение регрессии на :

Подставляя в формулу числовые значения, получаем:

Окончательно, уравнение на имеет вид:

Построим корреляционное поле и график уравнения регрессии:

Оценим тесноту линейной связи в процентах с помощью коэффициента детерминации:

Таким образом вариация на 44,8% зависит от вариации величины , оставшиеся 55,2% вариации зависят от вариации других величин, не вошедших в уравнение.