Парная линейная регрессия и метод наименьших квадратов (МНК)
Простейшей системой корреляционной связи является линейная связь между двумя признаками - парная линейная корреляция. Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму.
Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид:
где
–
среднее значение результативного признака
при
определенном значении факторного признака
;
– свободный
член уравнения;
– коэффициент
регрессии, измеряющий среднее отношение отклонения результативного признака от
его средней величины к отклонению факторного признака от его средней величины
на одну единицу его измерения – вариация
, приходящаяся на единицу вариации
.
Параметры уравнения
находят
методом наименьших квадратов (метод решения систем уравнений, при котором в
качестве решения принимается точка минимума суммы квадратов отклонений), то
есть в основу этого метода положено требование минимальности сумм квадратов
отклонений эмпирических данных
от
выровненных
:
Для нахождения минимума данной функции приравняем к нулю ее частные производные.
В результате получим систему двух линейных уравнений, которая называется системой нормальных уравнений:
Решая эту систему в общем виде, получим:
Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:
или
Если
коэффициент линейной корреляции
уже
рассчитан, то легко может быть найден коэффициент
парной
регрессии:
где
,
– стандартные
отклонения.
Задача 1
Имеются следующие данные о
цене на нефть
(ден.
ед.) и индексе акций нефтяных компаний
(усл.
ед.).
Цена на нефть (ден. ед.) | 17,28 | 17,05 | 18,30 | 18,80 | 19,20 | 18,50 |
Индекс акций (усл. ед.) | 537 | 534 | 550 | 555 | 560 | 552 |
- Построить корреляционное поле.
- Предполагая, что между
переменными x и y существует линейная зависимость, найти уравнение линейной
регрессии
- Оценить тесноту связи.
Решение
Построим корреляционное поле, для этого отметим в системе координат 6 точек, соответствующих данным парам значений этих признаков.
Корреляционное поле и линия регрессии
Расположение точек на
рисунке показывает, что зависимость между компонентами
и
двумерной дискретной случайной величины может
выражаться линейным уравнением регрессии
.
Составим расчетную таблицу:
Расчетная вспомогательная таблица
|
|
|
|
|
|
1 | 17,28 | 537 | 298,5984 | 288369 | 9279,36 |
2 | 17,05 | 534 | 290,7025 | 285156 | 9104,7 |
3 | 18,3 | 550 | 334,89 | 302500 | 10065 |
4 | 18,8 | 555 | 353,44 | 308025 | 10434 |
5 | 19,2 | 560 | 368,64 | 313600 | 10752 |
6 | 18,5 | 552 | 342,25 | 304704 | 10212 |
Сумма | 109,13 | 3288 | 1988,521 | 1802354 | 59847,06 |
Коэффициенты
уравнения регрессии
можно найти методом наименьших квадратов,
решив систему нормальных уравнений:
Если по каким-либо причинам не справляетесь с решением задач, на портале можно заказать выполнение расчетной домашней работы, ИДЗ, РГР, контрольной и даже отдельных задач в разумные сроки. Чтобы вы смогли сделать заказ, я доступен по следующим каналам связи:
Контакты будут для вас
видны на территории
России и Беларуси
Общение без посредников. Удобная оплата переводом на банковскую карту. Опыт работы более 25 лет.
Подробное решение в формате электронного документа получите точно в срок или раньше.
Подставляя в систему уравнений числовые значения, получаем:
Решая систему уравнений, получаем:
Уравнение парной линейной регрессии:
Коэффициент линейной корреляции вычислим по формуле:
Вывод
Таким
образом уравнение линейной регрессии, устанавливающее зависимость между ценой
на нефть и индексом акций имеет вид
- с увеличением цены на нефть на 1 ден.ед.
цена акций увеличивается на 12,078 ед. Коэффициент корреляции очень близок к
единице - между исследуемыми величинами существует очень тесная связь.
Задача 2
По территории региона приводятся данные за 2011 г.
Требуется:
Номер региона |
Среднедушевой
прожиточный минимум в день одного трудоспособного, руб.
|
Среднедневная
заработная плата, руб.
|
1 | 75 | 133 |
2 | 78 | 125 |
3 | 81 | 129 |
4 | 93 | 153 |
5 | 86 | 140 |
6 | 77 | 135 |
7 | 85 | 135 |
8 | 77 | 132 |
9 | 89 | 161 |
10 | 95 | 159 |
11 | 72 | 120 |
12 | 115 | 160 |
Решение
Если по каким-либо причинам не справляетесь с решением задач, на портале можно заказать выполнение расчетной домашней работы, ИДЗ, РГР, контрольной и даже отдельных задач в разумные сроки. Чтобы вы смогли сделать заказ, я доступен по следующим каналам связи:
Контакты будут для вас
видны на территории
России и Беларуси
Общение без посредников. Удобная оплата переводом на банковскую карту. Опыт работы более 25 лет.
Подробное решение в формате электронного документа получите точно в срок или раньше.
Уравнение линейной парной регрессии
1) Для расчета параметров уравнения линейной регрессии строим расчетную таблицу:
Расчетная вспомогательная таблица
№ |
|
|
|
|
|
|
|
|
|
1 | 75 | 133 | 9975 | 5625 | 17689 | 129.808 | 3.192 | 10.189 | 2.400 |
2 | 78 | 125 | 9750 | 6084 | 15625 | 132.844 | -7.844 | 61.528 | 6.275 |
3 | 81 | 129 | 10449 | 6561 | 16641 | 135.88 | -6.88 | 47.334 | 5.333 |
4 | 93 | 153 | 14229 | 8649 | 23409 | 148.024 | 4.976 | 24.761 | 3.252 |
5 | 86 | 140 | 12040 | 7396 | 19600 | 140.94 | -0.94 | 0.884 | 0.671 |
6 | 77 | 135 | 10395 | 5929 | 18225 | 131.832 | 3.168 | 10.036 | 2.347 |
7 | 85 | 135 | 11475 | 7225 | 18225 | 139.928 | -4.928 | 24.285 | 3.650 |
8 | 77 | 132 | 10164 | 5929 | 17424 | 131.832 | 0.168 | 0.028 | 0.127 |
9 | 89 | 161 | 14329 | 7921 | 25921 | 143.976 | 17.024 | 289.817 | 10.574 |
10 | 95 | 159 | 15105 | 9025 | 25281 | 150.048 | 8.952 | 80.138 | 5.630 |
11 | 72 | 120 | 8640 | 5184 | 14400 | 126.772 | -6.772 | 45.860 | 5.643 |
12 | 115 | 160 | 18400 | 13225 | 25600 | 170.288 | -10.288 | 105.843 | 6.430 |
Итого | 1023 | 1682 | 144951 | 88753 | 238040 | 700.703 | 52.334 | ||
Среднее значение | 85.250 | 140.167 | 12079.250 | 7396.083 | 19836.667 | 4.361 | |||
|
11.337 | 13.783 | |||||||
|
128.521 | 189.972 |
Получено
уравнение линейной регрессии
Вывод
С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 1.012 руб.
Коэффициент линейной корреляции
2) Теснота линейной связи оценивается с помощью коэффициента корреляции :
Коэффициент детерминации:
Вывод
Это
означает, что 69.2% вариации заработной платы
объясняется вариацией фактора
–среднедушевого прожиточного минимума.
Средняя ошибка аппроксимации
Качество модели можно оценить с помощью средней ошибки аппроксимации:
Вывод
Качество построенной модели оценивается как хорошее, так как средняя ошибка аппроксимации не превышает 8-10%.
F-критерий
3)
Рассчитаем
– критерий.
По таблице F-распределения Фишера-Снедекора, при уровне значимости α=0,05 и числе степеней свободы k1=1 и k2=12-2=10, критическое значение:
Вывод
– гипотеза о статистической незначимости
уравнения регрессии отклоняется.
Статистическая значимость параметров регрессии
Оценку статистической значимости параметров регрессии проведем с помощью t–статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.
Выдвигаем
гипотезу
о статистически незначимом отличии показателей
от нуля:
для числа степеней свободы
и
составит 2,23
Если по каким-либо причинам не справляетесь с решением задач, на портале можно заказать выполнение расчетной домашней работы, ИДЗ, РГР, контрольной и даже отдельных задач в разумные сроки. Чтобы вы смогли сделать заказ, я доступен по следующим каналам связи:
Контакты будут для вас
видны на территории
России и Беларуси
Общение без посредников. Удобная оплата переводом на банковскую карту. Опыт работы более 25 лет.
Подробное решение в формате электронного документа получите точно в срок или раньше.
Определим
случайные ошибки
Тогда:
Фактическое значение превосходит
табличное значение t–статистики.
Нулевая
гипотеза отклоняется – то есть
не случайно отличается от нуля, а
статистически значимо.
Фактическое значение превосходит
табличное значение t–статистики. Нулевая
гипотеза отклоняется – то есть
не случайно отличается от нуля, а
статистически значимо.
Фактическое значение превосходит
табличное значение t–статистики. Нулевая
гипотеза отклоняется – то есть
не случайно отличается от нуля, а
статистически значимо.
Рассчитаем
доверительные интервалы для параметров регрессии
и
. Для этого
определим предельную ошибку для каждого показателя:
Доверительные интервалы:
или
или
Точечный прогноз
4) Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит
руб., тогда прогнозное значение среднедневной
заработной платы составит:
Интервальный прогноз
5) Ошибка прогноза составит:
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:
Доверительный интервал прогноза:
6) Построим исходные данные и теоретическую прямую:
Корреляционное поле и прямая уравнения регрессии