Парная линейная регрессия и метод наименьших квадратов (МНК)

Краткая теория

Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.

Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:

где  – среднее значение результативного признака  при определенном значении факторного признака ;

 – свободный член уравнения;

 – коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения – вариация , приходящаяся на единицу вариации .

Параметры уравнения  находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных  от выровненных :

Для нахождения минимума данной функции приравняем к нулю ее частные производные.

В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

Решая эту систему в общем виде, получим:

Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:

или

 

Если коэффициент линейной корреляции  уже рассчитан, то легко может быть найден коэффициент  парной регрессии:

где ,  – стандартные отклонения.

Примеры решения задач

Задача 1

Имеются следующие данные о цене на нефть  (ден. ед.) и индексе акций нефтяных компаний  (усл. ед.).

Цена на нефть (ден. ед.) 17,28 17,05 18,30 18,80 19,20 18,50
Индекс акций (усл. ед.) 537 534 550 555 560 552
  • Построить корреляционное поле.
  • Предполагая, что между переменными x и y существует линейная зависимость, найти уравнение линейной регрессии   
  • Оценить тесноту связи.

Решение

Построим корреляционное поле, для этого отметим в системе координат   6 точек, соответствующих данным парам значений этих признаков.

Корреляционное поле и линия регрессии

Расположение точек на рисунке показывает, что зависимость между компонентами  и  двумерной дискретной случайной величины может выражаться линейным уравнением регрессии .

Составим расчетную таблицу:

Расчетная вспомогательная таблица

         
1 17,28 537 298,5984 288369 9279,36
2 17,05 534 290,7025 285156 9104,7
3 18,3 550 334,89 302500 10065
4 18,8 555 353,44 308025 10434
5 19,2 560 368,64 313600 10752
6 18,5 552 342,25 304704 10212
Сумма 109,13 3288 1988,521 1802354 59847,06

Коэффициенты уравнения регрессии  можно найти методом наименьших квадратов, решив систему нормальных уравнений:

На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение). Для этого вам нужно только связаться со мной:

Телеграм (+7 968 849-45-98)
ВКонтакте
WhatsApp (+7 968 849-45-98)

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Подставляя в систему уравнений числовые значения, получаем:

Решая систему уравнений, получаем:

Уравнение парной линейной регрессии:

 

Коэффициент линейной корреляции вычислим по формуле:

Вывод

Таким образом уравнение линейной регрессии, устанавливающее зависимость между ценой на нефть и индексом акций имеет вид  - с увеличением цены на нефть на 1 ден.ед. цена акций увеличивается на 12,078 ед. Коэффициент корреляции очень близок к единице - между исследуемыми величинами существует очень тесная связь.


Задача 2

По территории региона приводятся данные за 2011 г.

Требуется:

    Построить линейное уравнение парной регрессии  от . Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации. Оценить статистическую значимость параметров регрессии и корреляции с помощью  –критерия Фишера и  –критерия Стьюдента. Выполнить прогноз заработной платы  при прогнозном значении среднедушевого прожиточного минимума , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал. На одном графике построить исходные данные и теоретическую прямую.
Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб. Среднедневная заработная плата, руб.
1 75 133
2 78 125
3 81 129
4 93 153
5 86 140
6 77 135
7 85 135
8 77 132
9 89 161
10 95 159
11 72 120
12 115 160

Решение

На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение). Для этого вам нужно только связаться со мной:

Телеграм (+7 968 849-45-98)
ВКонтакте
WhatsApp (+7 968 849-45-98)

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Уравнение линейной парной регрессии

1) Для расчета параметров уравнения линейной регрессии строим расчетную таблицу:

Расчетная вспомогательная таблица

1 75 133 9975 5625 17689 129.808 3.192 10.189 2.400
2 78 125 9750 6084 15625 132.844 -7.844 61.528 6.275
3 81 129 10449 6561 16641 135.88 -6.88 47.334 5.333
4 93 153 14229 8649 23409 148.024 4.976 24.761 3.252
5 86 140 12040 7396 19600 140.94 -0.94 0.884 0.671
6 77 135 10395 5929 18225 131.832 3.168 10.036 2.347
7 85 135 11475 7225 18225 139.928 -4.928 24.285 3.650
8 77 132 10164 5929 17424 131.832 0.168 0.028 0.127
9 89 161 14329 7921 25921 143.976 17.024 289.817 10.574
10 95 159 15105 9025 25281 150.048 8.952 80.138 5.630
11 72 120 8640 5184 14400 126.772 -6.772 45.860 5.643
12 115 160 18400 13225 25600 170.288 -10.288 105.843 6.430
Итого 1023 1682 144951 88753 238040     700.703 52.334
Среднее значение 85.250 140.167 12079.250 7396.083 19836.667       4.361
11.337 13.783              
128.521 189.972              

 

Получено уравнение линейной регрессии

Вывод

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 1.012 руб.

Коэффициент линейной корреляции

2) Теснота линейной связи оценивается с помощью коэффициента корреляции :

Коэффициент детерминации:

Вывод

Это означает, что 69.2% вариации заработной платы  объясняется вариацией фактора  –среднедушевого прожиточного минимума.

Средняя ошибка аппроксимации

Качество модели можно оценить с помощью средней ошибки аппроксимации:

Вывод

Качество построенной модели оценивается как хорошее, так как средняя ошибка аппроксимации не превышает 8-10%.

F-критерий

3) Рассчитаем  – критерий.

По таблице F-распределения Фишера-Снедекора, при уровне значимости α=0,05 и числе степеней свободы k1=1 и k2=12-2=10, критическое значение:

Вывод

 – гипотеза о статистической незначимости уравнения регрессии отклоняется.

Статистическая значимость параметров регрессии

Оценку статистической значимости параметров регрессии проведем с помощью t–статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Выдвигаем гипотезу  о статистически незначимом отличии показателей от нуля:

  для числа степеней свободы  и  составит 2,23

На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение). Для этого вам нужно только связаться со мной:

Телеграм (+7 968 849-45-98)
ВКонтакте
WhatsApp (+7 968 849-45-98)

Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту. Опыт работы более 25 лет.

Подробное решение в электронном виде (docx, pdf) получите точно в срок или раньше.

Определим случайные ошибки

Тогда:

Фактическое значение превосходит табличное значение t–статистики. Нулевая гипотеза отклоняется – то есть  не случайно отличается от нуля, а статистически значимо.

 

Фактическое значение превосходит табличное значение t–статистики. Нулевая гипотеза отклоняется – то есть  не случайно отличается от нуля, а статистически значимо.

Фактическое значение превосходит табличное значение t–статистики. Нулевая гипотеза отклоняется – то есть  не случайно отличается от нуля, а статистически значимо.

 

Рассчитаем доверительные интервалы для параметров регрессии  и . Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы:

 или  

 или  

Точечный прогноз

4) Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит

 руб., тогда прогнозное значение среднедневной заработной платы составит:

Интервальный прогноз

5) Ошибка прогноза составит:

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Доверительный интервал прогноза:

 

6) Построим исходные данные и теоретическую прямую:

Корреляционное поле и прямая уравнения регрессии