Парная линейная регрессия и метод наименьших квадратов (МНК)

Краткая теория

Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.

Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:

где  – среднее значение результативного признака  при определенном значении факторного признака ;

 – свободный член уравнения;

 – коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения – вариация , приходящаяся на единицу вариации .

Параметры уравнения  находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных  от выровненных :

Для нахождения минимума данной функции приравняем к нулю ее частные производные.

В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:

Решая эту систему в общем виде, получим:

Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:

или

 

Если коэффициент линейной корреляции  уже рассчитан, то легко может быть найден коэффициент  парной регрессии:

где ,  – стандартные отклонения.

Примеры решения задач

Задача 1

Имеются следующие данные о цене на нефть  (ден. ед.) и индексе акций нефтяных компаний  (усл. ед.).

Цена на нефть (ден. ед.) 17,28 17,05 18,30 18,80 19,20 18,50
Индекс акций (усл. ед.) 537 534 550 555 560 552
  • Построить корреляционное поле.
  • Предполагая, что между переменными x и y существует линейная зависимость, найти уравнение линейной регрессии   
  • Оценить тесноту связи.

Решение

Построим корреляционное поле, для этого отметим в системе координат   6 точек, соответствующих данным парам значений этих признаков.

Корреляционное поле и линия регрессии

Расположение точек на рисунке показывает, что зависимость между компонентами  и  двумерной дискретной случайной величины может выражаться линейным уравнением регрессии .

Составим расчетную таблицу:

Расчетная вспомогательная таблица

         
1 17,28 537 298,5984 288369 9279,36
2 17,05 534 290,7025 285156 9104,7
3 18,3 550 334,89 302500 10065
4 18,8 555 353,44 308025 10434
5 19,2 560 368,64 313600 10752
6 18,5 552 342,25 304704 10212
Сумма 109,13 3288 1988,521 1802354 59847,06

Коэффициенты уравнения регрессии  можно найти методом наименьших квадратов, решив систему нормальных уравнений:

Если по каким-либо причинам не справляетесь с решением задач, на портале можно заказать выполнение расчетной домашней работы, ИДЗ, РГР, контрольной и даже отдельных задач в разумные сроки. Чтобы вы смогли сделать заказ, я доступен по следующим каналам связи:

Контакты будут для вас
видны на территории
России и Беларуси

Общение без посредников. Удобная оплата переводом на банковскую карту. Опыт работы более 25 лет.

Подробное решение в формате электронного документа получите точно в срок или раньше.

Подставляя в систему уравнений числовые значения, получаем:

Решая систему уравнений, получаем:

Уравнение парной линейной регрессии:

 

Коэффициент линейной корреляции вычислим по формуле:

Вывод

Таким образом уравнение линейной регрессии, устанавливающее зависимость между ценой на нефть и индексом акций имеет вид  - с увеличением цены на нефть на 1 ден.ед. цена акций увеличивается на 12,078 ед. Коэффициент корреляции очень близок к единице - между исследуемыми величинами существует очень тесная связь.


Задача 2

По территории региона приводятся данные за 2011 г.

Требуется:

    Построить линейное уравнение парной регрессии  от . Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации. Оценить статистическую значимость параметров регрессии и корреляции с помощью  –критерия Фишера и  –критерия Стьюдента. Выполнить прогноз заработной платы  при прогнозном значении среднедушевого прожиточного минимума , составляющем 107% от среднего уровня. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал. На одном графике построить исходные данные и теоретическую прямую.
Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб. Среднедневная заработная плата, руб.
1 75 133
2 78 125
3 81 129
4 93 153
5 86 140
6 77 135
7 85 135
8 77 132
9 89 161
10 95 159
11 72 120
12 115 160

Решение

Если по каким-либо причинам не справляетесь с решением задач, на портале можно заказать выполнение расчетной домашней работы, ИДЗ, РГР, контрольной и даже отдельных задач в разумные сроки. Чтобы вы смогли сделать заказ, я доступен по следующим каналам связи:

Контакты будут для вас
видны на территории
России и Беларуси

Общение без посредников. Удобная оплата переводом на банковскую карту. Опыт работы более 25 лет.

Подробное решение в формате электронного документа получите точно в срок или раньше.

Уравнение линейной парной регрессии

1) Для расчета параметров уравнения линейной регрессии строим расчетную таблицу:

Расчетная вспомогательная таблица

1 75 133 9975 5625 17689 129.808 3.192 10.189 2.400
2 78 125 9750 6084 15625 132.844 -7.844 61.528 6.275
3 81 129 10449 6561 16641 135.88 -6.88 47.334 5.333
4 93 153 14229 8649 23409 148.024 4.976 24.761 3.252
5 86 140 12040 7396 19600 140.94 -0.94 0.884 0.671
6 77 135 10395 5929 18225 131.832 3.168 10.036 2.347
7 85 135 11475 7225 18225 139.928 -4.928 24.285 3.650
8 77 132 10164 5929 17424 131.832 0.168 0.028 0.127
9 89 161 14329 7921 25921 143.976 17.024 289.817 10.574
10 95 159 15105 9025 25281 150.048 8.952 80.138 5.630
11 72 120 8640 5184 14400 126.772 -6.772 45.860 5.643
12 115 160 18400 13225 25600 170.288 -10.288 105.843 6.430
Итого 1023 1682 144951 88753 238040     700.703 52.334
Среднее значение 85.250 140.167 12079.250 7396.083 19836.667       4.361
11.337 13.783              
128.521 189.972              

 

Получено уравнение линейной регрессии

Вывод

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 1.012 руб.

Коэффициент линейной корреляции

2) Теснота линейной связи оценивается с помощью коэффициента корреляции :

Коэффициент детерминации:

Вывод

Это означает, что 69.2% вариации заработной платы  объясняется вариацией фактора  –среднедушевого прожиточного минимума.

Средняя ошибка аппроксимации

Качество модели можно оценить с помощью средней ошибки аппроксимации:

Вывод

Качество построенной модели оценивается как хорошее, так как средняя ошибка аппроксимации не превышает 8-10%.

F-критерий

3) Рассчитаем  – критерий.

По таблице F-распределения Фишера-Снедекора, при уровне значимости α=0,05 и числе степеней свободы k1=1 и k2=12-2=10, критическое значение:

Вывод

 – гипотеза о статистической незначимости уравнения регрессии отклоняется.

Статистическая значимость параметров регрессии

Оценку статистической значимости параметров регрессии проведем с помощью t–статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Выдвигаем гипотезу  о статистически незначимом отличии показателей от нуля:

  для числа степеней свободы  и  составит 2,23

Если по каким-либо причинам не справляетесь с решением задач, на портале можно заказать выполнение расчетной домашней работы, ИДЗ, РГР, контрольной и даже отдельных задач в разумные сроки. Чтобы вы смогли сделать заказ, я доступен по следующим каналам связи:

Контакты будут для вас
видны на территории
России и Беларуси

Общение без посредников. Удобная оплата переводом на банковскую карту. Опыт работы более 25 лет.

Подробное решение в формате электронного документа получите точно в срок или раньше.

Определим случайные ошибки

Тогда:

Фактическое значение превосходит табличное значение t–статистики. Нулевая гипотеза отклоняется – то есть  не случайно отличается от нуля, а статистически значимо.

 

Фактическое значение превосходит табличное значение t–статистики. Нулевая гипотеза отклоняется – то есть  не случайно отличается от нуля, а статистически значимо.

Фактическое значение превосходит табличное значение t–статистики. Нулевая гипотеза отклоняется – то есть  не случайно отличается от нуля, а статистически значимо.

 

Рассчитаем доверительные интервалы для параметров регрессии  и . Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы:

 или  

 или  

Точечный прогноз

4) Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит

 руб., тогда прогнозное значение среднедневной заработной платы составит:

Интервальный прогноз

5) Ошибка прогноза составит:

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Доверительный интервал прогноза:

 

6) Построим исходные данные и теоретическую прямую:

Корреляционное поле и прямая уравнения регрессии