Побудувати лінію регресії. Основи лінійної регресії

Територіями регіону наводяться дані за 200Х р.

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Завдання:

1. Побудуйте поле кореляції та сформулюйте гіпотезу про форму зв'язку.

2. Розрахуйте параметри рівняння лінійної регресії

4. Дайте за допомогою середнього (загального) коефіцієнта еластичності порівняльну оцінку сили зв'язку фактора із результатом.

7. Розрахуйте прогнозне значення результату, якщо прогнозне значення фактора збільшиться на 10% його середнього рівня. Визначте довірчий інтервал прогнозу рівня значущості .

Рішення:

Вирішимо дане завданняза допомогою Excel.

1. Зіставивши наявні дані х і у, наприклад, ранжирувавши їх у порядку зростання фактора х, можна спостерігати наявність прямої залежності між ознаками, коли збільшення середньодушового прожиткового мінімуму збільшує середньоденну заробітну плату. Виходячи з цього, можна зробити припущення, що зв'язок між ознаками прямий і його можна описати рівнянням прямий. Той самий висновок підтверджується і основі графічного аналізу.

Щоб побудувати поле кореляції, можна скористатися ППП Excel. Введіть вихідні дані у послідовності: спочатку х, потім у.

Виділіть область клітинок, що містить дані.

Потім оберіть: Вставка / Точкова діаграма / Точкова з маркерамияк показано малюнку 1.

Малюнок 1 Побудова поля кореляції

Аналіз поля кореляції показує наявність близькою до прямо лінійної залежності, тому що точки розташовані практично по прямій лінії.

2. Для розрахунку параметрів рівняння лінійної регресії
скористаємося вбудованою статистичною функцією Лінейн.

Для цього:

1) Відкрийте існуючий файл, що містить дані, що аналізуються;
2) Виділіть область порожніх осередків 5×2 (5 рядків, 2 стовпці) для виведення результатів регресійної статистики.
3) Активізуйте Майстер функцій: у головному меню виберіть Формули / Вставити функцію.
4) У вікні Категоріяви берете Статистичні, у вікні функція - Лінейн. Клацніть по кнопці ОКяк показано на малюнку 2;

Малюнок 2 Діалогове вікно «Майстер функцій»

5) Заповніть аргументи функції:

Відомі значення у

Відомі значення х

Константа- логічне значення, що вказує на наявність або відсутність вільного члена в рівнянні; якщо Константа = 1, то вільний член розраховується звичайним чиномякщо Константа = 0, то вільний член дорівнює 0;

Статистика- логічне значення, яке вказує, виводити додаткову інформацію щодо регресійного аналізу чи ні. Якщо Статистика = 1, то додаткова інформаціявиводиться, якщо Статистика = 0, виводяться лише оцінки параметрів рівняння.

Клацніть по кнопці ОК;

Рисунок 3 Діалогове вікно аргументів функції ЛІНІЙН

6) У лівому верхньому осередку виділеної області з'явиться перший елемент підсумкової таблиці. Щоб розкрити всю таблицю, натисніть клавішу , а потім на комбінацію клавіш ++ .

Додаткова регресійна статистика буде виводитись у порядку, зазначеному в наступній схемі:

Значення коефіцієнта b	Значення коефіцієнта a
Стандартна помилка b	Стандартна помилка a
Стандартна помилка y
F-статистика
Регресійна сума квадратів

Рисунок 4 Результат обчислення функції ЛІНІЙН

Набули рівняння регресії:

Робимо висновок: Зі збільшенням середньодушового прожиткового мінімуму на 1 руб. середньоденна вести збільшується загалом на 0,92 крб.

Це означає, що 52% варіації заробітної плати(у) пояснюється варіацією фактора х – середньодушового прожиткового мінімуму, а 48% – дією інших факторів, не включених до моделі.

За обчисленим коефіцієнтом детермінації можна розрахувати коефіцієнт кореляції: .

Зв'язок оцінюється як тісний.

4. За допомогою середнього (загального) коефіцієнта еластичності визначимо силу впливу фактора на результат.

Для рівняння прямий середній (загальний) коефіцієнт еластичності визначимо за такою формулою:

Середні значення знайдемо, виділивши область осередків зі значеннями х, і виберемо Формули / Автосума / Середнє, і те саме зробимо зі значеннями у.

Рисунок 5 Розрахунок середніх значень функції та аргумент

Таким чином, за зміни середньодушового прожиткового мінімуму на 1% від свого середнього значення середньоденна заробітна плата зміниться в середньому на 0,51%.

За допомогою інструмента аналізу даних Регресіяможна отримати:
- результати регресійної статистики,
- результати дисперсійного аналізу,
- результати довірчих інтервалів,
- залишки та графіки підбору лінії регресії,
- залишки та нормальну ймовірність.

Порядок дій наступний:

1) перевірте доступ до Пакету аналізу. У головному меню виберіть: Файл/Параметри/Надбудови.

2) У списку, що розкривається Управліннявиберіть пункт Надбудови Excelта натисніть кнопку Перейти.

3) У вікні Надбудовивстановіть прапорець Пакет аналізу, а потім натисніть кнопку ОК.

Якщо Пакет аналізувідсутня у списку поля Доступні надбудови, натисніть кнопку Огляд, щоб здійснити пошук.

Якщо відображається повідомлення про те, що пакет аналізу не встановлено на комп'ютері, натисніть кнопку Так, щоб встановити його.

4) У головному меню послідовно виберіть: Дані / Аналіз даних / Інструменти аналізу / Регресія, а потім натисніть кнопку ОК.

5) Заповніть діалогове вікно введення даних та параметрів виведення:

Вхідний інтервал Y- Діапазон, що містить дані результативної ознаки;

Вхідний інтервал X- Діапазон, що містить дані факторної ознаки;

Мітки- прапорець, який вказує, чи містить перший рядок назви стовпців чи ні;

Константа – нуль- Прапорець, що вказує на наявність або відсутність вільного члена в рівнянні;

Вихідний інтервал- Досить вказати ліву верхню комірку майбутнього діапазону;

6) Новий робочий лист – можна задати довільне ім'я нового листа.

Потім натисніть кнопку ОК.

Рисунок 6 Діалогове вікно введення параметрів інструменту Регресія

Результати регресійного аналізу даних завдань представлені малюнку 7.

Рисунок 7 Результат застосування інструменту регресія

5. Оцінимо за допомогою середньої помилкиапроксимації якість рівнянь. Скористаємося результатами регресійного аналізу, представленого на Рисунку 8.

Рисунок 8 Результат застосування інструменту регресія «Виведення залишку»

Складемо нову таблицю як показано малюнку 9. У графі З розрахуємо відносну помилкуапроксимації за формулою:

Рисунок 9 Розрахунок середньої помилки апроксимації

Середня помилка апроксимації розраховується за формулою:

Якість побудованої моделі оцінюється як хороша, тому що не перевищує 8 – 10%.

6. З таблиці з регресійною статистикою (Малюнок 4) випишемо фактичне значення F-критерію Фішера:

Оскільки при 5%-ном рівні значущості, можна зробити висновок про значущість рівняння регресії (зв'язок доведено).

8. Оцінку статистичної значимостіпараметрів регресії проведемо за допомогою t-статистики Стьюдента та шляхом розрахунку довірчого інтервалу кожного з показників.

Висуваємо гіпотезу Н 0 про статистично незначну відмінність показників від нуля:

для числа ступенів свободи

На малюнку 7 є фактичні значення t-статистики:

t-критерій для коефіцієнта кореляції можна розрахувати двома способами:

I спосіб:

де - випадкова помилкакоефіцієнта кореляції

Дані для розрахунку візьмемо з таблиці на малюнку 7.

II спосіб:

Фактичні значення t-статистики перевищують табличні значення:

Тому гіпотеза Н 0 відхиляється, тобто параметри регресії та коефіцієнт кореляції не випадково відрізняються від нуля, а статистично значущі.

Довірчий інтервал для параметра a визначається як

Для параметра a 95% межі як показано на малюнку 7 склали:

Довірчий інтервал для коефіцієнта регресії визначається як

Для коефіцієнта регресії b 95% межі як показано на малюнку 7 склали:

Аналіз верхньої та нижньої меж довірчих інтервалів призводить до висновку про те, що з ймовірністю параметри a та b, перебуваючи у зазначених межах, не приймають нульових значень, тобто. є статистично незначущими і істотно відмінні від нуля.

7. Отримані оцінки рівняння регресії дають змогу використовувати його для прогнозу. Якщо прогнозне значення прожиткового мінімуму становитиме:

Тоді прогнозне значення прожиткового мінімуму становитиме:

Помилку прогнозу розрахуємо за такою формулою:

де

Дисперсію вважатимемо також за допомогою ППП Excel. Для цього:

1) Активізуйте Майстер функцій: у головному меню виберіть Формули / Вставити функцію.

3) Заповніть діапазон, що містить числові дані факторної ознаки. Натисніть ОК.

Рисунок 10 Розрахунок дисперсії

Набули значення дисперсії

Для підрахунку залишкової дисперсіїна один ступінь свободи скористаємося результатами дисперсійного аналізу, як показано на Рисунку 7.

Довірчі інтервали прогнозу індивідуальних значень у при ймовірності 0,95 визначаються виразом:

Інтервал досить широкий, насамперед, рахунок малого обсягу спостережень. Загалом виконаний прогноз середньомісячної заробітної плати виявився надійним.

Умову задачі взято з: Практикум з економетрики: Навч. посібник/І.І. Єлісєєва, С.В. Куришева, Н.М. Гордєєнко та ін; За ред. І.І. Єлісєєвої. – М.: Фінанси та статистика, 2003. – 192 с.: іл.

Використання графічного методу.
Цей метод застосовують для наочного зображення форми зв'язку між економічними показниками, що вивчаються. Для цього в прямокутної системикоординат будують графік, по осі ординат відкладають індивідуальні значеннярезультативної ознаки Y, а по осі абсцис - індивідуальні значення факторної ознаки X.
Сукупність точок результативної та факторної ознак називається полем кореляції.
З поля кореляції можна висунути гіпотезу (для генеральної сукупності) про те, що зв'язок між усіма можливими значеннями X та Y носить лінійний характер.

Лінійне рівняння регресіїмає вигляд y = bx + a + ε
Тут - випадкова помилка (відхилення, обурення).
Причини існування випадкової помилки:
1. Невключення до регресійної моделі значних пояснюючих змінних;
2. Агрегування змінних. Наприклад, функція сумарного споживання - це спроба загального вираження сукупності рішень окремих індивідів про витрати. Це лише апроксимація окремих співвідношень, які мають різні параметри.
3. Неправильний опис структури моделі;
4. Неправильна функціональна специфікація;
5. Помилки виміру.
Оскільки відхилення ε i кожного конкретного спостереження i – випадкові та його значення у вибірці невідомі, то:
1) за спостереженнями x i та y i можна отримати лише оцінки параметрів α та β
2) Оцінками параметрів α та β регресійної моделіє відповідно величини а та b, які носять випадковий характер, т.к. відповідають випадковій вибірці;
Тоді оцінне рівняння регресії (побудоване за вибірковими даними) матиме вигляд y = bx + a + ε, де e i – значення (оцінки) помилок ε i , що спостерігаються, а і b відповідно оцінки параметрів α і β регресійної моделі, які слід знайти.
Для оцінки параметрів α і β використовують МНК (метод найменших квадратів).
Система звичайних рівнянь.

Для наших даних система рівнянь має вигляд:

10a + 356b = 49
356a + 2135b = 9485

З першого рівняння виражаємо а і підставимо на друге рівняння
Отримуємо b = 68.16, a = 11.17

Рівняння регресії:
y = 68.16 x – 11.17

1. Параметри рівняння регресії.
Вибіркові середні.

Вибіркові дисперсії.

Середньо квадратичне відхилення

1.1. Коефіцієнт кореляції
Розраховуємо показник тісноти зв'язку. Таким показником є вибірковий лінійний коефіцієнткореляції, що розраховується за формулою:

Лінійний коефіцієнт кореляції набуває значення від –1 до +1.
Зв'язки між ознаками можуть бути слабкими та сильними (тісними). Їхні критерії оцінюються за шкалою Чеддока :
0.1 < r xy < 0.3: слабая;
0.3 < r xy < 0.5: умеренная;
0.5 < r xy < 0.7: заметная;
0.7 < r xy < 0.9: высокая;
0.9 < r xy < 1: весьма высокая;
У прикладі зв'язок між ознакою Y чинником X дуже висока і пряма.

1.2. Рівняння регресії(Оцінка рівняння регресії).

Лінійне рівняння регресії має вигляд y = 68.16 x -11.17
Коефіцієнтам рівняння лінійної регресії можна надати економічний сенс. Коефіцієнт рівняння регресіїпоказує, скільки од. зміниться результат за зміни чинника на 1 од.
Коефіцієнт b = 68.16 показує середнє зміна результативного показника (в одиницях виміру у) із підвищенням чи зниженням величини чинника x одиницю його виміру. У даному прикладііз збільшенням на 1 одиницю y підвищується у середньому на 68.16.
Коефіцієнт a = -11.17 формально показує прогнозований рівень у, але у разі, якщо х=0 перебуває близько з вибірковими значеннями.
Але якщо х=0 знаходиться далеко від вибіркових значень x , то буквальна інтерпретація може призвести до невірних результатів, і навіть якщо лінія регресії досить точно описує значення вибірки, що спостерігається, немає гарантій, що також буде при екстраполяції вліво або вправо.
Підставивши в рівняння регресії відповідні значення x можна визначити вирівняні (передбачені) значення результативного показника y(x) для кожного спостереження.
Зв'язок між у і x визначає знак коефіцієнта регресії b (якщо > 0 – прямий зв'язок, інакше – зворотний). У прикладі зв'язок пряма.

1.3. Коефіцієнт еластичності.
Коефіцієнти регресії (у прикладі b) небажано використовувати для безпосередньої оцінки впливу факторів на результативну ознаку в тому випадку, якщо існує відмінність одиниць вимірювання результативного показника у факторної ознаки х.
З цією метою обчислюються коефіцієнти еластичності і бета - коефіцієнти. Коефіцієнт еластичності знаходиться за формулою:

Він показує, на скільки відсотків у середньому змінюється результативна ознака при зміні факторної ознаки х на 1%. Він не враховує ступінь коливання факторів.
У нашому прикладі коефіцієнт еластичності більший за 1. Отже, при зміні Х на 1%, Y зміниться більш ніж на 1%. Іншими словами – Х істотно впливає на Y.
Бета – коефіцієнтпоказує, яку частину величини свого середнього квадратичного відхилення зміниться у середньому значення результативного ознаки при зміні факторного ознаки на величину його середньоквадратичного відхилення при фіксованому постійному значенні інших незалежних змінних:

Тобто. збільшення x величину середньоквадратичного відхилення цього показника призведе до збільшення середнього Y на 0.9796 середньоквадратичного відхиленняцього показника.

1.4. Помилка апроксимації.
Оцінимо якість рівняння регресії за допомогою помилки абсолютної апроксимації.

Оскільки помилка більша за 15%, то дане рівнянняне бажано використовувати як регресію.

1.6. Коефіцієнт детермінації.
Квадрат (множинного) коефіцієнта кореляції називається коефіцієнтом детермінації, який показує частку варіації результативної ознаки, пояснену варіацією факторної ознаки.
Найчастіше, даючи інтерпретацію коефіцієнта детермінації, його виражають у відсотках.
R 2 = 0.98 2 = 0.9596
тобто. у 95.96% випадків зміни x призводять до зміни у. Іншими словами – точність підбору рівняння регресії – висока. Інші 4.04 % зміни Y пояснюються факторами, не врахованими у моделі.

x	y	x 2	y 2	x y	y(x)	(y i -y cp) 2	(y-y(x)) 2	(xi-x cp) 2	\|y - yx \|:y
0.371	15.6	0.1376	243.36	5.79	14.11	780.89	2.21	0.1864	0.0953
0.399	19.9	0.1592	396.01	7.94	16.02	559.06	15.04	0.163	0.1949
0.502	22.7	0.252	515.29	11.4	23.04	434.49	0.1176	0.0905	0.0151
0.572	34.2	0.3272	1169.64	19.56	27.81	87.32	40.78	0.0533	0.1867
0.607	44.5	.3684	1980.25	27.01	30.2	0.9131	204.49	0.0383	0.3214
0.655	26.8	0.429	718.24	17.55	33.47	280.38	44.51	0.0218	0.2489
0.763	35.7	0.5822	1274.49	27.24	40.83	61.54	26.35	0.0016	0.1438
0.873	30.6	0.7621	936.36	26.71	48.33	167.56	314.39	0.0049	0.5794
2.48	161.9	6.17	26211.61	402	158.07	14008.04	14.66	2.82	0.0236
7.23	391.9	9.18	33445.25	545.2	391.9	16380.18	662.54	3.38	1.81

2. Оцінка параметрів рівняння регресії.
2.1. Значимість коефіцієнта кореляції.

За таблицею Стьюдента з рівнем значущості α=0.05 та ступенями свободи k=7 знаходимо t крит:
t крит = (7; 0.05) = 1.895
де m = 1 – кількість пояснюючих змінних.
Якщо t набл > t критич, отримане значення коефіцієнта кореляції визнається значним ( нульова гіпотеза, що затверджує рівність нуля коефіцієнта кореляції, відкидається).
Оскільки t набл > t критий, то відхиляємо гіпотезу про рівність 0 коефіцієнта кореляції. Інакше кажучи, коефіцієнт кореляції статистично - значимий
У парній лінійній регресії t 2 r = t 2 b і тоді перевірка гіпотез про значущість коефіцієнтів регресії та кореляції рівносильна перевірці гіпотези про суттєвість лінійного рівняннярегресії.

2.3. Аналіз точності визначення оцінок коефіцієнтів регресії.
Незміщеною оцінкою дисперсії збурень є величина:

S 2 y = 94.6484 - непояснена дисперсія (захід розкиду залежної змінної навколо лінії регресії).
S y = 9.7287 - стандартна помилкаоцінки (стандартна помилка регресії).
Sa - стандартне відхилення випадкової величини a.

S b – стандартне відхилення випадкової величини b.

2.4. Довірчі інтервали для залежної змінної.
Економічне прогнозування на основі побудованої моделі передбачає, що зберігаються взаємозв'язки змінних, що існували раніше, і на період попередження.
Для прогнозування залежної змінної результативної ознаки необхідно знати прогнозні значення всіх факторів, що входять у модель.
Прогнозні значення факторів підставляють у модель і отримують точкові прогнозні оцінки показника, що вивчається.
(a + bx p ± ε)

де
(50.53;63.44)

Розрахуємо межі інтервалу, в якому буде зосереджено 95% можливих значень Y при необмежено великій кількості спостережень та X p = 1 (-11.17 + 68.16*1 ± 6.4554) Індивідуальнідовірчі інтервалидляYпри даному значенні.
X
(a + bx i ± ε)

де	x i	y = -11.17 + 68.16x i	ε i	y min
0.371	14.11	19.91	-5.8	34.02
0.399	16.02	19.85	-3.83	35.87
0.502	23.04	19.67	3.38	42.71
0.572	27.81	19.57	8.24	47.38
0.607	30.2	19.53	10.67	49.73
0.655	33.47	19.49	13.98	52.96
0.763	40.83	19.44	21.4	60.27
0.873	48.33	19.45	28.88	67.78
2.48	158.07	25.72	132.36	183.79

y max

Імовірністю 95% можна гарантувати, що значення Y при необмежено великому числі спостережень не вийде за межі знайдених інтервалів.
2.5. Перевірка гіпотез щодо коефіцієнтів лінійного рівняння регресії.
Перевіримо гіпотезу H 0 про рівність окремих коефіцієнтів регресії нулю (при альтернативі H 1 не дорівнює) лише на рівні значимості α=0.05.
t крит = (7; 0.05) = 1.895

Оскільки 12.8866> 1.895, то статистична значущість коефіцієнта регресії b підтверджується (відкидаємо гіпотезу про рівність нулю цього коефіцієнта).

Оскільки 2.0914> 1.895, то статистична значущість коефіцієнта регресії a підтверджується (відкидаємо гіпотезу про рівність нулю цього коефіцієнта).

Довірчий інтервал коефіцієнтів рівняння регресії.
Визначимо довірчі інтервали коефіцієнтів регресії, які з надійністю 95% будуть такими:
(b - t крит S b; b + t крит S b)
(68.1618 - 1.895 5.2894; 68.1618 + 1.895 5.2894)
(58.1385;78.1852)
Імовірно, 95% можна стверджувати, що значення даного параметра будуть лежати в знайденому інтервалі.
(a - t a)
(-11.1744 - 1.895 5.3429; -11.1744 + 1.895 5.3429)
(-21.2992;-1.0496)
Імовірно, 95% можна стверджувати, що значення даного параметра будуть лежати в знайденому інтервалі.

2) F-статистики. Критерій Фішера.
Перевірка значимості моделі регресії проводиться з використанням F-критерію Фішера, розрахункове значення якого перебуває як відношення дисперсії вихідного ряду спостережень показника, що вивчається, і незміщеної оцінки дисперсії залишкової послідовності для даної моделі.
Якщо розрахункове значення з lang=EN-US>n-m-1) ступенями свободи більше табличного при заданому рівні значущості, то модель вважається значущою.

де m - Число факторів в моделі.
Оцінка статистичної значущості парної лінійної регресії проводиться у разі наступного алгоритму:
1. Висувається нульова гіпотеза у тому, що рівняння загалом статистично незначимо: H 0: R 2 =0 лише на рівні значимості α.
2. Далі визначають фактичне значення F-критерію:

де m=1 для парної регресії.
3. Табличне значеннявизначається за таблицями розподілу Фішера для заданого рівня значимості, враховуючи, що число ступенів свободи для загальної сумиквадратів (більшої дисперсії) дорівнює 1 і число ступенів свободи залишкової сумиквадратів (меншої дисперсії) при лінійній регресії дорівнює n-2.
4. Якщо фактичне значення F-критерію менше табличного, то кажуть, що немає підстав відхиляти нульову гіпотезу.
В іншому випадку, нульова гіпотеза відхиляється і з ймовірністю (1-α) приймається альтернативна гіпотеза про статистичну значущість рівняння в цілому.
Табличне значення критерію зі ступенями свободи k1=1 та k2=7, Fkp=5.59
Оскільки фактичне значення F > Fkp, то коефіцієнт детермінації статистично значущий (Знайдена оцінка рівняння регресії статистично надійна).

Перевірка на наявність автокореляції залишків.
Важливою передумовою побудови якісної регресійної моделі МНК є незалежність значень випадкових відхиленьвід значень відхилень у всіх інших спостереженнях. Це гарантує відсутність корелювання між будь-якими відхиленнями і, зокрема, між сусідніми відхиленнями.
Автокореляція (послідовна кореляція)визначається як кореляція між показниками, що спостерігаються, упорядкованими в часі (тимчасові ряди) або в просторі (перехресні ряди). Автокореляція залишків (відхилень) зазвичай трапляється у регресійному аналізі під час використання даних часових рядів і дуже рідко під час використання перехресних даних.
В економічних завданнях значно частіше зустрічається позитивна автокореляція , ніж негативна автокореляція. Найчастіше позитивна автокореляція викликається спрямованим постійним впливом деяких неврахованих у моделі чинників.
Негативна автокореляціяФактично означає, що з позитивним відхиленням слід негативне і навпаки. Така ситуація може мати місце, якщо ту саму залежність між попитом на прохолодні напої та доходами розглядати за сезонними даними (зима-літо).
Серед основних причин, що викликають автокореляцію, можна виділити такі:
1. Помилки специфікації. Необлік моделі будь-якої важливої пояснюючої змінної чи неправильний вибір форми залежності зазвичай призводять до системним відхиленням точок спостереження лінії регресії, що може зумовити автокореляцію.
2. Інерція. Багато економічні показники(інфляція, безробіття, ВНП і т.д.) мають певну циклічність, пов'язану з хвилеподібністю ділової активності. Тому зміна показників відбувається не миттєво, а має певну інертність.
3. Ефект павутиння. У багатьох виробничих та інших сферах економічні показники реагують зміну економічних умовіз запізненням (тимчасовим лагом).
4. Згладжування даних. Найчастіше дані по деякому тривалому часовому періоду отримують усереднення даних по складових його інтервалах. Це може призвести до певного згладжування коливань, які були всередині періоду, що розглядається, що в свою чергу може бути причиною автокореляції.
Наслідки автокореляції схожі з наслідками гетероскедастичності: висновки по t-і F-статистики, що визначають значущість коефіцієнта регресії та коефіцієнта детермінації, можливо, будуть невірними.

Виявлення автокореляції

1. Графічний метод
Є низка варіантів графічного визначенняавтокореляції. Один із них пов'язує відхилення e i з моментами їх отримання i. При цьому по осі абсцис відкладають або час отримання статистичних даних, або порядковий номерспостереження, а, по осі ординат – відхилення e i (чи оцінки отклонений).
Природно припустити, що й є певна зв'язок між відхиленнями, то автокореляція має місце. Відсутність залежності, швидше за все, свідчить про відсутність автокореляції.
Автокореляція стає наочнішою, якщо побудувати графік залежності e i від e i-1 .

Критерій Дарбіна-Уотсона.
Цей критерій є найбільш відомим виявлення автокореляції.
При статистичному аналізірівняння регресії на початковому етапічасто перевіряють здійсненність однієї передумови: умови статистичної незалежності відхилень між собою. При цьому перевіряється некорельованість сусідніх величин e i.

y	y(x)	e i = y-y(x)	e 2	(e i - e i-1) 2
15.6	14.11	1.49	2.21	0
19.9	16.02	3.88	15.04	5.72
22.7	23.04	-0.3429	0.1176	17.81
34.2	27.81	6.39	40.78	45.28
44.5	30.2	14.3	204.49	62.64
26.8	33.47	-6.67	44.51	439.82
35.7	40.83	-5.13	26.35	2.37
30.6	48.33	-17.73	314.39	158.7
161.9	158.07	3.83	14.66	464.81
			662.54	1197.14

Для аналізу корелюваності відхилень використовують статистику Дарбіна-Уотсона:

Критичні значення d 1 і d 2 визначаються на основі спеціальних таблиць для необхідного рівня значущості α, числа спостережень n = 9 і кількості змінних, що пояснюють m=1.
Автокореляція відсутня, якщо виконується така умова:
d 1< DW и d 2 < DW < 4 - d 2 .
Не звертаючись до таблиць, можна скористатися приблизним правилом і вважати, що автокореляція залишків відсутня, якщо 1.5< DW < 2.5. Для более надежного вывода целесообразно обращаться к табличным значениям.

Регресійний аналіз є одним із найбільш затребуваних методів статистичного дослідження. З його допомогою можна встановити ступінь впливу незалежних величинна залежну змінну. У функціоналі Microsoft Excelє інструменти, призначені щодо такого аналізу. Давайте розберемо, що вони являють собою і як ними користуватися.

Але для того, щоб використовувати функцію, що дозволяє провести регресійний аналіз, перш за все, потрібно активувати Пакет аналізу. Тільки тоді необхідні для цієї процедури інструменти з'являться на Стрічці Ексель.

Тепер, коли ми перейдемо у вкладку «Дані»на стрічці в блоці інструментів «Аналіз»ми побачимо нову кнопку – «Аналіз даних».

Види регресійного аналізу

Існує кілька видів регресій:

параболічна;
статечна;
логарифмічна;
експонентна;
показова;
гіперболічна;
Лінійна регресія.

Про виконання останнього видурегресійного аналізу в Екселі ми докладніше поговоримо далі.

Лінійна регресія у програмі Excel

Внизу, як приклад, представлена таблиця, в якій зазначено середньодобову температуру повітря на вулиці, та кількість покупців магазину за відповідний робочий день. Давайте з'ясуємо за допомогою регресійного аналізу, як саме погодні умовияк температури повітря можуть вплинути на відвідуваність торгового закладу.

Загальне рівняння регресії лінійного вигляду має такий вигляд: У = а0 + а1х1 +…+акхк. У цій формулі дляозначає змінну, вплив чинників яку ми намагаємося вивчити. У нашому випадку це кількість покупців. Значення x– це різні фактори, що впливають на змінну. Параметри aє коефіцієнтами регресії. Тобто саме вони визначають значущість того чи іншого чинника. Індекс kпозначає Загальна кількістьцих факторів.

Розбір результатів аналізу

Результати регресійного аналізу виводяться у вигляді таблиці там, яке зазначено в настройках.

Одним із основних показників є R-квадрат. У ньому вказується якість моделі. У нашому випадку даний коефіцієнтдорівнює 0,705 чи близько 70,5%. Це прийнятний рівень якості. Залежність менше ніж 0,5 є поганою.

Ще один важливий показникрозташований у осередку на перетині рядка «Y-перетин»та стовпця «Коефіцієнти». Тут вказується яке значення буде у Y, а нашому випадку, це кількість покупців, за всіх інших чинниках рівних нулю. У цій таблиці дане значеннядорівнює 58,04.

Значення на перетині граф «Змінна X1»і «Коефіцієнти»показує рівень залежності Y від X. У нашому випадку це рівень залежності кількості клієнтів магазину від температури. Коефіцієнт 1,31 вважається досить високим показником впливу.

Як бачимо, за допомогою програми Microsoft Excel досить легко скласти таблицю регресійного аналізу. Але працювати з отриманими на виході даними і розуміти їх суть зможе лише підготовлена людина.

Поняття регресії. Залежність між змінними величинами xі yможе бути описана різними способами. Зокрема, будь-яку форму зв'язку можна виразити рівнянням загального виду , де yрозглядається як залежна змінна, або функціївід іншої – незалежної змінної величини x, яка називається аргументом. Відповідність між аргументом та функцією може бути задана таблицею, формулою, графіком тощо. Зміна функції в залежності від зміни одного або кількох аргументів називається регресією. Усі засоби, які застосовуються для опису кореляційних зв'язків, становить зміст регресійного аналізу.

Для вираження регресії служать кореляційні рівняння, чи рівняння регресії, емпіричні та теоретично обчислені ряди регресії, їх графіки, звані лініями регресії, і навіть коефіцієнти лінійної і нелінійної регресії.

Показники регресії виражають кореляційний зв'язок двосторонньо, враховуючи зміну усереднених значень ознаки дляпри зміні значень x iознаки X, і, навпаки, показують зміну середніх значень ознаки Xза зміненими значеннями y iознаки для. Виняток становлять часові ряди, чи ряди динаміки, що свідчать про зміну ознак у часі. Регресія таких лав є односторонньою.

Різних форм та видів кореляційних зв'язків багато. Завдання зводиться до того, щоб у кожному конкретному випадку виявити форму зв'язку та висловити її відповідним кореляційним рівнянням, що дозволяє передбачити можливі зміни однієї ознаки дляна підставі відомих змін іншого X, пов'язаного з першим кореляційним.

12.1 Лінійна регресія

Рівняння регресії.Результати спостережень, проведених над тим чи іншим біологічним об'єктом за кореляційно пов'язаними ознаками xі y, можна зобразити точками на площині, побудувавши систему прямокутних координат. В результаті виходить деяка діаграма розсіювання, що дозволяє судити про форму і тісноту зв'язку між ознаками, що варіюють. Досить часто цей зв'язок виглядає у вигляді прямої або може бути апроксимований прямою лінією.

Лінійна залежність між змінними xі yописується рівнянням загального виду , де a, b, c, d,… – параметри рівняння, що визначають співвідношення між аргументами x 1 , x 2 , x 3 , …, x mта функцій.

У практиці враховують не всі можливі, а лише деякі аргументи, у найпростішому випадку – лише один:

У рівнянні лінійної регресії (1) a- вільний член, а параметр bвизначає нахил лінії регресії щодо осей прямокутних координат. В аналітичній геометрії цей параметр називають кутовим коефіцієнтом, а в біометрії – коефіцієнтом регресії. Наочне уявлення про цей параметр і положення ліній регресії дляпо Xі Xпо дляу системі прямокутних координат дає рис.1.

Мал. 1 Лінії регресії Y X і X Y у системі

прямокутних координат

Лінії регресії, як показано на рис.1, перетинаються в точці О (,), що відповідає середнім арифметичним значенням кореляційно пов'язаних один з одним ознак дляі X. При побудові графіків регресії по осі абсцис відкладають значення незалежної змінної X, а по осі ординат – значення залежної змінної, або функції Y. Лінія АВ, що проходить через точку О(,) відповідає повній (функціональній) залежності між змінними величинами дляі Xколи коефіцієнт кореляції . Чим сильніший зв'язок між дляі Xтим ближче лінії регресії до АВ, і, навпаки, чим слабший зв'язокміж цими величинами, тим більше віддаленими, виявляються лінії регресії від АВ. За відсутності зв'язку між ознаками лінії регресії виявляються під прямим кутом по відношенню один до одного і .

Оскільки показники регресії виражають кореляційний зв'язок двосторонньо, рівняння регресії (1) слід записувати так:

За першою формулою визначають усереднені значення за зміни ознаки Xна одиницю міри, по другій – усереднені значення за зміни на одиницю міри ознаки для.

Коефіцієнт регресії.Коефіцієнт регресії показує, наскільки в середньому величина однієї ознаки yзмінюється за зміни на одиницю заходу іншого, кореляційно пов'язаного з дляознаки X. Цей показник визначають за формулою

Тут значення sмножать на розміри класових інтервалів λ , якщо їх знаходили за варіаційними рядами або кореляційними таблицями.

Коефіцієнт регресії можна обчислити минаючи розрахунок середніх квадратичних відхилень s yі s xза формулою

Якщо ж коефіцієнт кореляції невідомий, коефіцієнт регресії визначають так:

Зв'язок між коефіцієнтами регресії та кореляції.Порівнюючи формули (11.1) (тема 11) і (12.5), бачимо: в їх чисельнику одна й та сама величина, що вказує на наявність зв'язку між цими показниками. Цей зв'язок виражається рівністю

Таким чином, коефіцієнт кореляції дорівнює середній геометричній з коефіцієнтів b yxі b xy. Формула (6) дозволяє, по-перше, за відомими значеннями коефіцієнтів регресії b yxі b xyвизначати коефіцієнт регресії R xy, а по-друге, перевіряти правильність розрахунку цього показника кореляційного зв'язку R xyміж варіюючими ознаками Xі для.

Як і коефіцієнт кореляції, коефіцієнт регресії характеризує лише лінійний зв'язок і супроводжується знаком плюс при позитивному та знаком мінус при негативному зв'язку.

Визначення параметрів лінійної регресії.Відомо, що сума квадратів відхилень варіант x iвід середньої є величина найменша, тобто ця теорема становить основу методу найменших квадратів. Щодо лінійної регресії [див. формулу (1)] на вимогу цієї теореми задовольняє деяка система рівнянь, званих нормальними:

Спільне вирішення цих рівнянь щодо параметрів aі bпризводить до наступних результатів:

;

, звідки в.

Враховуючи двосторонній характер зв'язку між змінними дляі Xформулу для визначення параметра аслід висловити так:

та . (7)

Параметр b, або коефіцієнт регресії, визначають за такими формулами:

Побудова емпіричних рядів регресії.При наявності великої кількостіспостережень регресійний аналіз починається із побудови емпіричних рядів регресії. Емпіричний ряд регресіїутворюється шляхом обчислення за значеннями однієї варіюючої ознаки Xсередніх значень іншого, пов'язаного кореляційно з Xознаки для. Іншими словами, побудова емпіричних рядів регресії зводиться до знаходження групових середніх і з відповідних значень ознак Y і X.

Емпіричний ряд регресії – це подвійний ряд чисел, які можна зобразити точками на площині, та був, з'єднавши ці точки відрізками прямий, отримати емпіричну лінію регресії. Емпіричні ряди регресії, особливо їх графіки, звані лініями регресіїдають наочне уявленняпро форму і тісноту кореляційної залежності між ознаками, що варіюють.

Вирівнювання емпіричних рядів регресії.Графіки емпіричних рядів регресії виявляються, як правило, не такими, що плавно йдуть, а ламаними лініями. Це пояснюється тим, що поряд з головними причинами, що визначають загальну закономірність у мінливості ознак, що корелює, на їх величині позначається вплив численних другорядних причин, що викликають випадкові коливання вузлових точок регресії. Щоб виявити основну тенденцію (тренд) сполученої варіації корелюваних ознак, потрібно замінити ламані лінії на гладкі лінії регресії, що плавно йдуть. Процес заміни ламаних ліній на плавно йдуть вирівнюванням емпіричних рядіві ліній регресій.

Графічний спосіб вирівнювання.Це найпростіший спосіб, що не вимагає обчислювальної роботи. Його суть зводиться до наступного. Емпіричний ряд регресії зображують як графіка у системі прямокутних координат. Потім візуально намічаються середні точки регресії, якими з допомогою лінійки чи лекала проводять суцільну лінію. Недолік цього способу очевидний: він не виключає впливу індивідуальних властивостей дослідника на результати вирівнювання емпіричних ліній регресії. Тому в тих випадках, коли потрібно більше висока точністьпри заміні ламаних ліній регресії на плавно йдуть, використовують інші способи вирівнювання емпіричних рядів.

Спосіб ковзної середньої.Суть цього способу зводиться до послідовного обчислення середніх арифметичних двох або трьох сусідніх членів емпіричного ряду. Цей спосіб особливо зручний у тих випадках, коли емпіричний ряд представлений великою кількістю членів, так що втрата двох з них - крайніх, що неминуче при цьому способі вирівнювання, помітно не вплине на його структуру.

Метод найменших квадратів.Цей метод запропоновано на початку ХІХ століття А.М. Лежандром та незалежно від нього К. Гауссом. Він дозволяє найточніше вирівнювати емпіричні ряди. Цей метод, як було показано вище, заснований на припущенні, що сума квадратів відхилень варіант x i від їх середньої є мінімальна величина, тобто. Звідси і назва методу, який застосовується не тільки в екології, але і в техніці. Метод найменших квадратів об'єктивний і універсальний, його застосовують у різних випадках при відшуканні емпіричних рівнянь рядів регресії та визначенні їх параметрів.

Вимога методу найменших квадратів у тому, що теоретичні точкилінії регресії повинні бути отримані таким чином, щоб сума квадратів відхилень від цих точок для емпіричних спостережень y iбула мінімальною, тобто.

Обчислюючи відповідно до принципів математичного аналізу мінімум цього виразу та певним чином перетворюючи його, можна отримати систему так званих нормальних рівнянь, В яких невідомими величинами виявляються шукані параметри рівняння регресії, а відомі коефіцієнти визначаються емпіричними величинами ознак, зазвичай сумами їх значень та їх перехресних творів.

Множинна лінійна регресія.Залежність між кількома змінними величинами прийнято виражати рівнянням множинної регресії, яка може бути лінійноїі нелінійною. У найпростішому вигляді множинна регресія виражається рівнянням із двома незалежними змінними величинами ( x, z):

(a + bx p ± ε) a– вільний член рівняння; bі c- Параметри рівняння. Для знаходження параметрів рівняння (10) (за способом найменших квадратів) застосовують таку систему нормальних рівнянь:

Ряди динаміки. Вирівнювання рядів.Зміна ознак у часі утворює так звані тимчасові рядиабо ряди динаміки. Характерною особливістю таких рядів є те, що як незалежна змінна X тут завжди виступає фактор часу, а залежною Y – ознака, що змінюється. Залежно від рядів регресії залежність між змінними X і Y носить односторонній характер, оскільки чинник часу залежить від мінливості ознак. Незважаючи на зазначені особливості, ряди динаміки можна уподібнити до рядів регресії та обробляти їх одними і тими ж методами.

Як і лави регресії, емпіричні лави динаміки несуть на собі вплив не тільки основних, а й численних другорядних (випадкових) факторів, що загасають ту головну тенденцію у мінливості ознак, яку мовою статистики називають трендом.

Аналіз рядів динаміки починається з виявлення форми тренду. Для цього тимчасовий ряд зображують у вигляді лінійного графікау системі прямокутних координат. При цьому по осі абсцис відкладають тимчасові точки (роки, місяці та інші одиниці часу), а по осі ординат – значення залежної змінної Y. За наявності лінійної залежності між змінними X та Y (лінійного тренду) для вирівнювання рядів динаміки способом найменших квадратів найбільш підходящим є рівняння регресії у вигляді відхилень членів ряду залежної змінної Y від середньої арифметичної низки незалежної змінної X:

Тут – параметр лінійної регресії.

Числові характеристики рядів динаміки.До основних узагальнюючих числових характеристик рядів динаміки відносять середню геометричнуі близьку до неї середню арифметичну величини. Вони характеризують середню швидкість, з якою змінюється величина залежної змінної за певні періоди часу:

Оцінкою мінливості членів низки динаміки служить середнє квадратичне відхилення. При виборі рівнянь регресії для опису рядів динаміки враховують форму тренду, яка може бути лінійною (або приведена до лінійної) та нелінійної. Про правильність вибору рівняння регресії зазвичай судять за подібністю емпірично спостережених і обчислених значень залежною змінною. Більш точним у вирішенні цього завдання є метод дисперсійного аналізу регресії (тема 12 п.4).

Кореляція рядів динаміки.Нерідко доводиться зіставляти динаміку тимчасових рядів, що паралельно йдуть, пов'язаних один з одним деякими загальними умовами, наприклад з'ясувати зв'язок між виробництвом сільськогосподарської продукції і зростанням поголів'я худоби за певний проміжок часу. У таких випадках характеристикою зв'язку між змінними X та Y служить коефіцієнт кореляції R xy (за наявності лінійного тренду).

Відомо, що тренд рядів динаміки, як правило, затушовується коливаннями членів ряду залежної змінної Y. Звідси виникає завдання двоякого роду: вимірювання залежності між рядами, що зіставляються, не виключаючи тренд, і вимірювання залежності між сусідніми членами одного і того ж ряду, виключаючи тренд. У першому випадку показником тісноти зв'язку між зіставлюваними рядами динаміки служить коефіцієнт кореляції(якщо зв'язок лінійний), у другому – коефіцієнт автокореляції. Ці показники мають різні значення, хоч і обчислюються за тими самими формулами (див. тему 11).

Неважко помітити, що на значенні коефіцієнта автокореляції позначається мінливість членів ряду залежної змінної: що менше члени ряду відхиляються від тренда, то вище коефіцієнт автокореляції, і навпаки.

Лабораторна робота №5. Регресійний аналіз.

Лабораторна робота виконується у Excel 2007.

Мета роботи – побудова кореляційного поля, відшукання коефіцієнтів лінійної регресії та побудова лінії середньоквадратичної регресії засобами Excel.

Задано таблицю значень контрольованої величини X та випадкової величини для .

Побудувати кореляційне поле. Знайти параметри лінійної середньоквадратичної регресії. Побудувати лінію лінійної регресії. X та випадкової величини для 1. Складіть таблицю значень контрольованої величини

, Як показано на рис. 1 і в звіті, що додається.

Мал. 1. Таблиця вихідних даних та параметрів рівняння регресії. До методичного керівництва додається звіт полабораторної роботи

в Excel/

2. Використовуючи вихідні дані, збудуйте кореляційне поле (так це називається).

Мал. 2. Графік кореляційного поля.

3. Рівняння лінійної регресії має вигляд:

- Рівняння лінійної регресії;

рівняння лінійної регресії, наведене до виду рівняння з кутовим коефіцієнтом;

Вибірковий коефіцієнт регресії;

X ;

- вибіркова стала регресії; для .

Середнє квадратичне відхилення

Коефіцієнт кореляції;

;

X ;

Кореляційний момент; для .

Математичне очікування випадкової величини

4. Складіть таблицю параметрів рівняння регресії ,,,, (як показано на рис.1): Для обчислення математичного очікування та використовуйте функціюВідмінник Статистичніз категорії

(і не питайте, як це зробити); Для обчислення середнього квадратичного відхилення та використовуйте функціюВідмінник СтатистичніСТАНДОТКЛОН

(як це зробити, можете запитати у викладача, якщо не боїтеся); Для обчислення коефіцієнта кореляції використовуйте функцію КОРРЕЛ з категорії

Статистичні. , використовуючи результати обчислень параметрів, і як показано в рядку введення формул на рис. 1.

Розмножте цю формулу в стовпці осередків C2:C6 з позначкою .

5. На графіку кореляційного поля додайте лінію регресії.

Excel має в своєму розпорядженні ще один спосіб пошуку згладжуючої лінійної залежності і побудову лінії регресії.

6. Скопіюйте вихідні дані в комірку A20 . Знайдіть параметри рівняння лінійної регресії таким чином:

Вибірковий коефіцієнт регресії знаходиться за допомогою функції НахилВідмінник Статистичні;

Вибіркова постійна регресія знаходиться за допомогою функції ВІДРІЗОКВідмінник Статистичні;

Результати обчислень показано на наступному малюнку:

Мал. 3. Таблиця обчислення параметрів і даних y* для побудови лінії регресії

7. Побудуйте суміщений графік кореляційного поля та лінії регресії.

Ще одна функція Excel для відшукання лінійної регресії та побудови лінія лінії тренду.

8. Виберіть у Головне менюпослідовно наступні закладки Дані →Аналіз даних →Регресія.

Заповніть вільні поля у діалоговому вікні Регресіявідповідними даними як показано на рис 4:

Вхідний інтервал y: вихідні дані y;

Вхідний інтервал x: вихідні дані x;

Вихідний інтервал: A47

Поставте галочку у вікні графіка підбору. ОК!

Мал. 4. Діалогове вікно Регресія

Процедура Регресіявиводить графік вихідних даних та згладжуючу лінію регресії (графік треба відформатувати).

У третьоютаблиці ВИСНОВОК ПІДСУМКІВзнаходяться цікаві для нас параметри регресії і - коефіцієнти для-перетин та змінна X. Крім того, процедура Регресіявиводить на екран велику кількість інших результатів у вигляді таблиць, які нам будуть потрібні надалі, при вирішенні завдань економетрики.

Є в Excel ще два способи побудови лінії тренду.

Скопіюйте вихідні дані X і Y в блок, починаючи з комірки A28, і збудуйте ще раз графік кореляційного поля ( Вставка→Графік→Точковий)

Клацнувши правою кнопкою миші на маркері однієї з точок графіка кореляційного поля, активізуйте таким чином діалогове вікно форматування даних ряду. Виберіть опцію Додати лінію тренду … (як показано на рис. 5)

У вікні, що відкрилося Формат лінії трендувстановіть Параметри лінії тренду:

- Лінійна

- показати рівняння на діаграмі

- помістити на діаграму величину достовірності апроксимації.

Під час встановлення прапорця в полі - помістити на діаграму величину достовірності апроксимаціїна діаграму виводиться значення коефіцієнта детермінації.

Чим краще обрана функція регресії і що менше відмінність між спостереженими значеннями і розрахунковими , тим ближче до одиниці.

Мал. 5. Діалогове вікно Регресія

Мал. 6. Діалогове вікно Регресія

Після виконання процедури Додати лінію тренду.графік кореляційного поля набуде вигляду:

Мал. 7. Графіки кореляційного поля та лінії тренду з рівнянням регресії та коефіцієнтом детермінації.

Відформатувати графік та зробити висновки щодо лабораторної роботи.

Результати роботи надати викладачеві для виставлення оцінки.

Варіанти завдання.

Отримано таблицю значень контрольованої величини X та випадкової величини Y. Знайти рівняння лінійної регресії. Завдати графік вихідні дані випадкової величини Y і побудувати графік лінії регресії.

Варіант 1.

Варіант 2.

Варіант 3.

Варіант 4.

Варіант 5.

Варіант 6

Варіант 7.

Варіант 8.

Варіант 9.

Варіант 10.

Варіант 11.

Варіант 12.

Варіант 13.

Варіант 14.

Варіант 15.

Варіант 16.

Варіант 17.

Варіант 18.

Варіант 19.

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173

Номер регіону	Середньодушовий прожитковий мінімум на день одного працездатного, руб., х	Середньоденна заробітна плата, руб., у
1	78	133
2	82	148
3	87	134
4	79	154
5	89	162
6	106	195
7	67	139
8	88	158
9	73	152
10	87	162
11	76	159
12	115	173