Парная линейная регрессия и метод наименьших квадратов (МНК)
Краткая теория
Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.
Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:
где – среднее значение результативного признака при определенном значении факторного признака ;
– свободный член уравнения;
– коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения – вариация , приходящаяся на единицу вариации .
Параметры уравнения находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), то есть в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных от выровненных :
Для нахождения минимума данной функции приравняем к нулю ее частные производные.
В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
Решая эту систему в общем виде, получим:
Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:
или
Если коэффициент линейной корреляции уже рассчитан, то легко может быть найден коэффициент парной регрессии:
где , – стандартные отклонения.
Смежные темы решебника:
Примеры решения задач
Пример 1
Скачать пример 1 в формате pdf
Имеются следующие данные о цене на нефть (ден. ед.) и индексе акций нефтяных компаний (усл. ед.).
Цена на нефть (ден. ед.) | 17,28 | 17,05 | 18,30 | 18,80 | 19,20 | 18,50 |
Индекс акций (усл. ед.) | 537 | 534 | 550 | 555 | 560 | 552 |
- Построить корреляционное поле.
- Предполагая, что между переменными x и y существует линейная зависимость, найти уравнение линейной регрессии
- Оценить тесноту связи.
Решение
Построим корреляционное поле, для этого отметим в системе координат 6 точек, соответствующих данным парам значений этих признаков.
Корреляционное поле и линия регрессии
Расположение точек на рисунке показывает, что зависимость между компонентами и двумерной дискретной случайной величины может выражаться линейным уравнением регрессии .
Составим расчетную таблицу:
Расчетная вспомогательная таблица
1 | 17,28 | 537 | 298,5984 | 288369 | 9279,36 |
2 | 17,05 | 534 | 290,7025 | 285156 | 9104,7 |
3 | 18,3 | 550 | 334,89 | 302500 | 10065 |
4 | 18,8 | 555 | 353,44 | 308025 | 10434 |
5 | 19,2 | 560 | 368,64 | 313600 | 10752 |
6 | 18,5 | 552 | 342,25 | 304704 | 10212 |
Сумма | 109,13 | 3288 | 1988,521 | 1802354 | 59847,06 |
Коэффициенты уравнения регрессии можно найти методом наименьших квадратов, решив систему нормальных уравнений:
На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение), а также онлайн-помощь на экзамене или зачете. Для этого вам нужно только связаться со мной:
Телеграм @helptask
ВКонтакте (vk.com/task100)
WhatsApp +7 (968) 849-45-98
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту.
Подробное решение получите точно в срок или раньше.
Подставляя в систему уравнений числовые значения, получаем:
Решая систему уравнений, получаем:
Уравнение парной линейной регрессии:
Коэффициент линейной корреляции вычислим по формуле:
Вывод
Таким образом уравнение линейной регрессии, устанавливающее зависимость между ценой на нефть и индексом акций имеет вид - с увеличением цены на нефть на 1 ден.ед. цена акций увеличивается на 12,078 ед. Коэффициент корреляции очень близок к единице - между исследуемыми величинами существует очень тесная связь.
Пример 2
Скачать пример 2 в формате pdf
По территории региона приводятся данные за 2011 г.
Требуется:
1. Построить линейное уравнение парной регрессии от .
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
3. Оценить статистическую значимость параметров регрессии и корреляции с помощью –критерия Фишера и –критерия Стьюдента.
4. Выполнить прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума , составляющем 107% от среднего уровня.
5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
6. На одном графике построить исходные данные и теоретическую прямую.
Номер региона | Среднедушевой прожиточный минимум в день одного трудоспособного, руб. | Среднедневная заработная плата, руб. |
1 | 75 | 133 |
2 | 78 | 125 |
3 | 81 | 129 |
4 | 93 | 153 |
5 | 86 | 140 |
6 | 77 | 135 |
7 | 85 | 135 |
8 | 77 | 132 |
9 | 89 | 161 |
10 | 95 | 159 |
11 | 72 | 120 |
12 | 115 | 160 |
Решение
1) Для расчета параметров уравнения линейной регрессии строим расчетную таблицу:
№ | |||||||||
1 | 75 | 133 | 9975 | 5625 | 17689 | 129,808 | 3,192 | 10,189 | 2,400 |
2 | 78 | 125 | 9750 | 6084 | 15625 | 132,844 | -7,844 | 61,528 | 6,275 |
3 | 81 | 129 | 10449 | 6561 | 16641 | 135,88 | -6,88 | 47,334 | 5,333 |
4 | 93 | 153 | 14229 | 8649 | 23409 | 148,024 | 4,976 | 24,761 | 3,252 |
5 | 86 | 140 | 12040 | 7396 | 19600 | 140,94 | -0,94 | 0,884 | 0,671 |
6 | 77 | 135 | 10395 | 5929 | 18225 | 131,832 | 3,168 | 10,036 | 2,347 |
7 | 85 | 135 | 11475 | 7225 | 18225 | 139,928 | -4,928 | 24,285 | 3,650 |
8 | 77 | 132 | 10164 | 5929 | 17424 | 131,832 | 0,168 | 0,028 | 0,127 |
9 | 89 | 161 | 14329 | 7921 | 25921 | 143,976 | 17,024 | 289,817 | 10,574 |
10 | 95 | 159 | 15105 | 9025 | 25281 | 150,048 | 8,952 | 80,138 | 5,630 |
11 | 72 | 120 | 8640 | 5184 | 14400 | 126,772 | -6,772 | 45,860 | 5,643 |
12 | 115 | 160 | 18400 | 13225 | 25600 | 170,288 | -10,288 | 105,843 | 6,430 |
Итого | 1023 | 1682 | 144951 | 88753 | 238040 |
|
|
700,703 | 52,334 |
Среднее значение | 85,250 | 140,167 | 12079,250 | 7396,083 | 19836,667 |
|
|
|
4,361 |
128,521 | 189,972 |
|
|
|
|
|
|
|
|
11,337 | 13,783 |
|
|
|
|
|
|
|
Получено уравнение регрессии
С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 1.012 руб.
2) Теснота линейной связи оценивается с помощью коэффициента корреляции:
;
Это означает, что 69.2% вариации заработной платы объясняется вариацией фактора –среднедушевого прожиточного минимума.
Качество модели можно оценить с помощью средней ошибки аппроксимации:
Качество построенной модели оценивается как хорошее, так как средняя ошибка аппроксимации не превышает 8-10%.
На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение), а также онлайн-помощь на экзамене или зачете. Для этого вам нужно только связаться со мной:
Телеграм @helptask
ВКонтакте (vk.com/task100)
WhatsApp +7 (968) 849-45-98
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту.
Подробное решение получите точно в срок или раньше.
3) Рассчитаем – критерий.
Гипотеза о статистической незначимости уравнения регрессии отклоняется.
Оценку статистической значимости параметров регрессии проведем с помощью –статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.
Выдвигаем гипотезу о статистически незначимом отличии показателей от нуля:
для числа степеней свободы и составит 2,23
Определим случайные ошибки
Тогда:
Фактическое значение t -статистики превосходит табличное значение. Нулевая гипотеза отклоняется – то есть коэффициент не случайно отличается от нуля, а статистически значим.
Фактическое значение t -статистики превосходит табличное значение. Нулевая гипотеза отклоняется – то есть коэффициент не случайно отличается от нуля, а статистически значим.
Фактическое значение t -статистики превосходит табличное значение. Нулевая гипотеза отклоняется – то есть не случайно отличается от нуля, а статистически значим.
Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя:
Доверительные интервалы:
или
или
4) Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит
руб., тогда прогнозное значение среднедневной заработной платы составит:
руб.
5) Ошибка прогноза составит:
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
руб.
Доверительный интервал прогноза:
руб.
6) Построим исходные данные и теоретическую прямую:
Пример 3
Скачать пример 3 в формате pdf
По корреляционной таблице найти уравнения прямых регрессий на и на . Построить корреляционное поле и прямые регрессии. Оценить тесноту линейной связи в процентах.
10 | 15 | 20 | 25 | 30 | 35 | |
40 | 2 | 4 | - | - | - | - |
50 | - | 3 | 7 | - | - | - |
60 | - | - | 5 | 30 | 10 | - |
70 | - | - | 7 | 10 | 8 | - |
80 | - | - | - | 5 | 6 | 3 |
Решение
Вычислим частоты в столбцах и строках корреляционной таблицы:
10 | 15 | 20 | 25 | 30 | 35 | ||
40 | 2 | 4 | - | - | - | - | 6 |
50 | - | 3 | 7 | - | - | - | 10 |
60 | - | - | 5 | 30 | 10 | - | 45 |
70 | - | - | 7 | 10 | 8 | - | 25 |
80 | - | - | - | 5 | 6 | 3 | 14 |
2 | 7 | 19 | 45 | 24 | 3 | 100 |
На сайте можно заказать решение задач, контрольных, самостоятельных, домашних работ (возможно срочное решение), а также онлайн-помощь на экзамене или зачете. Для этого вам нужно только связаться со мной:
Телеграм @helptask
ВКонтакте (vk.com/task100)
WhatsApp +7 (968) 849-45-98
Мгновенная связь в любое время и на любом этапе заказа. Общение без посредников. Удобная и быстрая оплата переводом на карту.
Подробное решение получите точно в срок или раньше.
Вычислим среднюю :
Вычислим дисперсию.
Средняя квадратов:
Дисперсия:
Среднее квадратическое отклонение:
Вычислим среднюю :
Вычислим дисперсию.
Средняя квадратов:
Дисперсия:
Среднее квадратическое отклонение:
Вычислим коэффициент корреляции:
Найдем уравнение регрессии на :
Подставляя в формулу числовые значения, получаем:
Окончательно, уравнение на имеет вид:
Найдем уравнение регрессии на :
Подставляя в формулу числовые значения, получаем:
Окончательно, уравнение на имеет вид:
Построим корреляционное поле и график уравнения регрессии:
Оценим тесноту линейной связи в процентах с помощью коэффициента детерминации:
Таким образом вариация на 44,8% зависит от вариации величины , оставшиеся 55,2% вариации зависят от вариации других величин, не вошедших в уравнение.