Біографії Характеристики Аналіз

Оцінка рівняння регресії. Оцінка суттєвості параметрів лінійної регресії та всього рівняння в цілому

Парна регресіяє регресією між двома змінними

-у і х, тобто.модель виду + ​​Е

Де у- результативна ознака, тобто залежна змінна; х- Ознака-фактор.

Лінійна регресія зводиться до знаходження рівняння виду або

Рівняння виду дозволяє за заданим значеннямфактора x мати теоретичні значення результативної ознаки, підставляючи у нього фактичні значення фактора x.

Побудова лінійної регресіїзводиться до оцінки її параметрів і в.

Оцінки параметрів лінійної регресії можна знайти різними методами.

1.

2.

Параметр bназивається коефіцієнтом регресії. Його величина показує

середня зміна результату із зміною фактора на одну одиницю.

Формально а- значення упри х = 0. Якщо ознака-фактор

не має і не може мати нульового значення, то вищезазначена

трактування вільного члена, ане має сенсу. Параметр, аможе

не мати економічного змісту. Спроби економічно

інтерпретувати параметр, аможуть призвести до абсурду, особливо при а < 0.

Інтерпретувати можна лише знак за параметра а.Якщо а > 0,

то відносна зміна результату відбувається повільніше, ніж зміна

перевірка якості знайдених параметрів та всієї моделі в цілому:

-Оцінка значущості коефіцієнта регресії (b) та коефіцієнта кореляції

-Оцінка значимості всього рівняння регресії. Коефіцієнт детермінації

Рівняння регресії завжди доповнюється показником тісноти зв'язку. При

використання лінійної регресії як такий показник виступає

лінійний коефіцієнт кореляції r xy . Існують різні

модифікації формули лінійного коефіцієнта кореляції

Лінійний коефіцієнт кореляції знаходиться в межах: -1≤ .r xy

≤ 1. При цьому чим ближче rдо 0 тим слабша кореляція і навпаки

ближче r до 1 чи -1, тим більше кореляція, тобто. залежність х і близька до

лінійної. Якщо rточно =1або -1 всі точки лежать на одній прямій.

Якщо коеф. регресії b>0 то 0 ≤. r xy≤ 1 та

навпаки при b<0 -1≤.r xy≤0. Коеф.

кореляції відображає ступеня лінійної залежності між величинами за наявності

яскраво вираженої залежності ін. виду.

Для оцінки якості підбору лінійної функції розраховується квадрат лінійного

коефіцієнта кореляції

Називний коефіцієнт детермінації.Коефіцієнт детермінації

характеризує частку дисперсії результативної ознаки y, яка пояснюється

регресією. Відповідна величина

характеризує частку дисперсії у,викликану впливом інших не врахованих

у моделі факторів.

МНК дозволяєотримати такі оцінки параметрів аі b,яких

сума квадратів відхилень фактичних значень результативної ознаки

(у)від розрахункових (теоретичних)

мінімальна:

Іншими словами, з

всього безлічі ліній лінія регресії на графіку вибирається так, щоб сума

квадратів відстаней по вертикалі між точками та цією лінією була б

мінімальної.

Вирішується система нормальних рівнянь

ОЦІНКА СУТНІСТЬ ПАРАМЕТРІВ ЛІНІЙНОЇ РЕГРЕСІЇ.

Оцінка значущості рівняння регресії загалом дається з допомогою F-критерия

Фішера. При цьому висувається нульова гіпотеза, що коефіцієнт регресії дорівнює

нулю, тобто. b = 0, і отже, фактор хне надає

впливу на результат у.

Безпосереднім розрахунком F-критерію передує аналіз дисперсії.

Центральне місце у ньому займає розкладання загальної суми квадратів відхилень

змінної увід середнього значення уна дві частини -

«пояснену» та «непояснену»:

Загальна сума квадратів відхилень

Сума квадратів

відхилення пояснене регресією

Залишкова сума квадратів відхилення.

Будь-яка сума квадратів відхилень пов'язана з числом ступенів свободи , т.

е. з числом свободи незалежного варіювання ознаки. Число ступенів свободи пов'язане з числом одиниць сукупності nз числом визначених нею констант. Стосовно досліджуваної проблеми число ступенів свободи має показати, скільки незалежних відхилень з пможливих потрібно для

утворення цієї суми квадратів.

Дисперсія на один ступінь свободи D.

F-відносини (F-критерій):

Якщо нульова гіпотеза справедлива, то факторна і залишкова дисперсії не

відрізняються один від одного. Для Н 0 необхідно спростування, щоб

факторна дисперсія перевищувала залишкову у кілька разів. Англійською

статистиком Снедекором розроблено таблиці критичних значень F-відносин

при різних рівнях суттєвості нульової гіпотезита різному числі ступенів

свободи. Табличне значення F-критерію – це максимальна величина відношення

дисперсій, яка може мати місце при випадковому їх розбіжності для даного

рівня ймовірності наявності нульової гіпотези Обчислене значення F-відносини

визнається достовірним, якщо більше табличного. У цьому випадку нульова

гіпотеза про відсутність зв'язку ознак відхиляється і робиться висновок

суттєвості зв'язку: F факт > F табл Н 0

відхиляється.

Якщо ж величина виявиться меншою за табличну F факт ‹, F табл

То ймовірність нульової гіпотези вище за заданий рівень і вона не може бути

відхилено без серйозного ризику зробити неправильний висновок про наявність зв'язку. У

У цьому випадку рівняння регресії вважається статистично незначним. Але

не відхиляється.


Подібна інформація.


100 рбонус за перше замовлення

Виберіть тип роботи Дипломна робота Курсова роботаМагістерська дисертація Звіт з практики Стаття Доповідь Рецензія Контрольна роботаМонографія Розв'язання задач Бізнес-план Відповіді на запитання Творча роботаЕсе Чертеж Твори Переклад Презентації Набір тексту Інше Підвищення унікальності тексту Кандидатська дисертація Лабораторна робота Допомога on-line

Дізнатись ціну

Після того, як знайдено рівняння лінійної регресії, проводиться оцінка значущості як рівнянняв цілому, так і окремих його параметрів. Перевірити значущість рівняння регресії– отже встановити, чи відповідає математична модель, що виражає залежність між змінними, експериментальним даним і чи достатньо включених до рівняння пояснюючих змінних (однієї або декількох) для опису залежної змінної. Щоб мати загальне судження про якість моделі з відносних відхилень щодо кожного спостереження, визначають середню помилку апроксимації: Середня помилкаапроксимація не повинна перевищувати 8–10%.

Оцінка значущості рівняння регресії загалом проводиться на основі F-критерія Фішера, якому передує дисперсійний аналіз Відповідно до основної ідеї дисперсійного аналізу, Загальна сумаквадратів відхилень змінної yвід середнього значення yрозкладається на дві частини - "пояснену" і "непояснену": де - загальна сума квадратів відхилень; - Сума квадратів відхилень, пояснена регресією (або факторна сума квадратів відхилень); залишкова сумаквадратів відхилень, що характеризує вплив неврахованих у моделі факторів. Визначення дисперсії однією ступінь свободи призводить дисперсії до порівняльного виду. Зіставляючи факторну і залишкову дисперсіюз розрахунку на один ступінь свободи, отримаємо величину F-критерія Фішера: Фактичне значення F-критерія Фішера порівнюється з

табличним значенням Fтабл(a; k 1; k 2) при рівні значимості a та ступенях свободи k 1 = mі k 2= n-m-1.При цьому, якщо фактичне значення F- критерію більше табличного, то визнається статистична значущість рівняння загалом.

Для парної лінійної регресії m=1, тому

Величина F-критерія пов'язана з коефіцієнтом детермінації R2 її можна розрахувати за такою формулою:

У парній лінійній регресії оцінюється значимість як рівняння загалом, а й окремих його. параметрів. З цією метою по кожному з параметрів визначається його стандартна помилка: m bі m a. Стандартна помилка коефіцієнта регресії визначається за такою формулою: , де

Величина стандартної помилки спільно з t-розподілом Стьюдента при n-2 ступенях свободи застосовується для перевірки суттєвості коефіцієнта регресії та для розрахунку його довірчого інтервалу. Для оцінки суттєвості коефіцієнта регресії його величина порівнюється зі стандартною помилкою, тобто. визначається фактичне значення t-критерія Стьюдента: яке потім порівнюється з табличним значенням при певному рівні значущості a та числі ступенів свободи (n-2). Довірчий інтервалдля коефіцієнта регресії визначається як b± tтабл × mb. Оскільки знак коефіцієнта регресії вказує на зростання результативної ознаки yзі збільшенням ознаки-фактора x(b>0), зменшення результативної ознаки зі збільшенням ознаки-фактора ( b<0) или его независимость от независимой переменной (b=0), то межі довірчого інтервалу для коефіцієнта регресії не повинні містити суперечливих результатів, наприклад -1,5 £ b£0,8. Такі запис вказує, що справжнє значення коефіцієнта регресії одночасно містить позитивні і негативні величини і навіть нуль, чого може бути.

Стандартна помилка параметра a визначається за формулою: Процедура оцінювання суттєвості даного параметра не відрізняється від розглянутої вище коефіцієнта регресії. Обчислюється t-Критерій: , Його величина порівнюється з табличним значенням при n- 2 степенях свободи.


ТЕМА 4. СТАТИСТИЧНІ МЕТОДИ ВИВЧЕННЯ ЗВ'ЯЗКІВ

Рівняння регресії -це аналітичне уявлення кореляційної залежності. Рівняння регресії визначає гіпотетичну функціональну залежність між умовним середнім значенням результативного ознаки і значенням ознаки – чинника (чинників), тобто. основну тенденцію залежності.

Парна кореляційна залежність описується рівнянням парної регресії, множинна кореляційна залежність – рівнянням множинної регресії.

Ознака-результат у рівнянні регресії – це залежна змінна (відгук, яка пояснюється змінна), а ознака-фактор – незалежна змінна (аргумент, що пояснює змінна).

Найпростішим видом рівняння регресії є рівняння парної лінійної залежності:

де y – залежна змінна (ознака-результат); x - незалежна змінна (ознака-фактор); та – параметри рівняння регресії; - Помилка оцінювання.

Як рівняння регресії можна використовувати різні математичні функції. Часте практичне застосування знаходять рівняння лінійної залежності, параболи, гіперболи, степової функції та ін.

Як правило, аналіз починається з оцінки лінійної залежності, оскільки результати легко піддаються змістовній інтерпретації. Вибір типу рівняння зв'язку досить відповідальний етап аналізу. У «докомп'ютерну» епоху ця процедура була з певними труднощами і вимагала від аналітика знання властивостей математичних функцій. В даний час на базі спеціалізованих програм можна оперативно побудувати безліч рівнянь зв'язку та на основі формальних критеріїв здійснити вибір кращої моделі (проте математична грамотність аналітика не втратила своєї актуальності).

Гіпотезу про тип кореляційної залежності можна висунути за наслідками побудови поля кореляції (див. лекцію 6). Виходячи з характеру розташування точок на графіку (координати точок відповідають значенням залежної та незалежної змінних), виявляється тенденція зв'язку між ознаками (показниками). Якщо лінія регресії проходить через усі точки поля кореляції, це свідчить про функціональної зв'язку. У практиці соціально-економічних досліджень таку картину спостерігати не доводиться, оскільки є статистична (кореляційна) залежність. В умовах кореляційної залежності при нанесенні лінії регресії на діаграму розсіювання спостерігається відхилення точок поля кореляції від лінії регресії, що демонструє так звані залишки або помилки оцінювання (див. рис. 7.1).

Наявність помилки рівняння пов'язана з тим, що:

§ не всі фактори, що впливають на результат, враховуються в рівнянні регресії;

§ може бути невірно обрана форма зв'язку - рівняння регресії;

§ не всі фактори включені до рівняння.

Побудувати рівняння регресії означає розрахувати значення його параметрів. Рівняння регресії будується з урахуванням фактичних значень аналізованих ознак. Розрахунок параметрів зазвичай виконується з використанням методу найменших квадратів(МНК).

Суть МНКполягає в тому, що вдається отримати такі значення параметрів рівняння, при яких мінімізується сума квадратів відхилень теоретичних значень ознаки-результату (розрахованих на основі рівняння регресії) від фактичних його значень:

,

де - Фактичне значення ознаки-результату у i-ї одиниці сукупності; - Значення ознаки-результату у i-ї одиниці сукупності, отримане за рівнянням регресії ().

Тобто вирішується завдання на екстремум, тобто необхідно знайти, при яких значеннях параметрів, функція S досягає мінімуму.

Проводячи диференціювання, прирівнюючи приватні похідні нулю:



, (7.3)

, (7.4)

де - середній добуток значень фактора та результату; - Середнє значення ознаки – фактора; - Середнє значення ознаки-результату; - Дисперсія ознаки-фактора.

Параметр у рівнянні регресії характеризує кут нахилу лінії регресії графіку. Цей параметр називають коефіцієнтом регресіїта його величина характеризує, наскільки одиниць свого виміру зміниться ознака-результат при зміні ознаки-фактора на одиницю свого виміру. Знак при коефіцієнті регресії відбиває спрямованість залежності (пряма чи зворотна) і збігається зі знаком коефіцієнта кореляції (за умов парної залежності).

У рамках аналізованого прикладу, у програмі STATISTICA розраховані параметри рівняння регресії, що описує залежність між рівнем середньодушових грошових доходів населення і величиною валового регіонального продукту душу населення регіонах Росії, див. таблицю 7.1.

Таблиця 7.1 - Розрахунок та оцінка параметрів рівняння, що описує залежністьміж рівнем середньодушових грошових доходів населення та величиною валового регіонального продукту на душу населення в регіонах Росії, 2013 р.

У графі "В" таблиці містяться значення параметрів рівняння парної регресії, отже можна записати: = 13406,89 + 22,82 x. Дане рівняння описує тенденцію зв'язку між аналізованими характеристиками. Параметр – це коефіцієнт регресії. У разі він дорівнює 22,82 і характеризує таке: зі збільшенням ВРП душу населення на 1 тыс.рублей середньодушові грошові доходи загалом зростають (на що вказує знак " + " ) на 22,28 крб.

Параметр рівняння регресії у соціально-економічних дослідженнях, як правило, змістовно не інтерпретується. Формально він відображає величину ознаки - результату за умови, що ознака - фактор дорівнює нулю. Параметр характеризує розташування лінії регресії на графіку, див. рисунок 7.1.

Рисунок 7.1 - Поле кореляції та лінія регресії, що відображають залежність рівня середньодушових грошових доходів населення в регіонах Росії та величини ВРП на душу населення

Значення параметра відповідає точці перетину лінії регресії з віссю Y, X=0.

Побудова рівняння регресії супроводжується оцінкою статистичної значимостірівняння загалом та її параметрів. Необхідність таких процедур пов'язана з обмеженим обсягом даних, що може перешкоджати дії закону великих чисел і, отже, виявлення справжньої тенденції у взаємозв'язку аналізованих показників. З іншого боку, будь-яку досліджувану сукупність можна як вибірку з генеральної сукупності, а характеристики, отримані під час аналізу, як оцінку генеральних параметрів.

Оцінка статистичної значущості параметрів та рівняння в цілому – це обґрунтування можливості використання побудованої моделі зв'язку для прийняття управлінських рішень та прогнозування (моделювання).

Статистична значущість рівняння регресіїзагалом оцінюється з використанням F-критерія Фішера, який являє собою відношення факторної та залишкових дисперсій, розрахованих на один ступінь свободи:

де - факторна дисперсія ознаки – результату; k – число ступенів свободи факторної дисперсії (кількість факторів у рівнянні регресії); - Середнє значення залежної змінної; - теоретичне (отриманої за рівнянням регресії) значення залежної змінної у i - й одиниці сукупності; - залишкова дисперсія ознаки - результату; n – обсяг сукупності; n-k-1 – число ступенів свободи залишкової дисперсії.

Величина F-критерію Фішера, згідно з формулою, характеризує співвідношення між факторною та залишковою дисперсіями залежною змінною, демонструючи, по суті, у скільки разів величина поясненої частини варіації перевищує непояснену.

F-критерій Фішера табульований, входом до таблиці є число ступенів свободи факторної та залишкової дисперсій. Порівняння розрахункового значення критерію з табличним (критичним) дозволяє відповісти на питання: чи статистично значуща та частина варіації ознаки-результату, яку вдається пояснити факторами, включеними до рівняння цього виду. Якщо , то рівняння регресії визнається статистично значущим і, відповідно, статистично значущим і коефіцієнтом детермінації. В іншому випадку ( ), рівняння – статистично незначимо, тобто. Варіація врахованих у рівнянні чинників не пояснює статистично значимої частини варіації ознаки-результату, або правильно обрано рівняння зв'язку.

Оцінка статистичної значущості параметрів рівнянняздійснюється на основі t-статистикияка розраховується як відношення модуля параметрів рівняння регресії до їх стандартних помилок ( ):

, де ; (7.6)

, де ; (7.7)

де - стандартні відхилення ознаки - фактора та ознаки - результату; - Коефіцієнт детермінації.

У спеціалізованих статистичних програмах розрахунок параметрів завжди супроводжується розрахунком значень їх стандартних (середньоквадратичних) помилок та t-статистики (див. таблицю 7.1). Розрахункове значення t-статистики порівнюється з табличним, якщо обсяг сукупності, що вивчається, менше 30 одиниць (безумовно мала вибірка), слід звернутися до таблиці t-розподілу Стьюдента, якщо обсяг сукупності великий, слід скористатися таблицею нормального розподілу (інтеграла ймовірностей Лапласа). Параметр рівняння визнається статистично значущим, якщо.

Оцінка параметрів на основі t-статистики, по суті, є перевіркою нульової гіпотези про рівність генеральних параметрів нулю (H 0: =0; H 0: = 0;), тобто про статистично не значущу величину параметрів рівняння регресії. Рівень значущості гіпотези, зазвичай, приймається: = 0,05. Якщо розрахунковий рівень значимості менше 0,05, то нульова гіпотеза відкидається і приймається альтернативна - статистичної значущості параметра.

Продовжимо розгляд прикладу. У таблиці 7.1 у графі «B» наведено значення параметрів, у графі Std.Err.ofB – величини стандартних помилок параметрів ( ), у графі t(77 – число ступенів свободи) розраховані значення t – статистики з урахуванням числа ступенів свободи. Для оцінки статистичної значущості параметрів розрахункові значення t – статистик необхідно порівняти з табличним значенням. Заданого рівня значущості (0,05) у таблиці нормального розподілу відповідає t = 1,96. Бо 18,02, 10,84, тобто. , Слід визнати статистичну значимість отриманих значень параметрів, тобто. ці значення сформовані під впливом невипадкових факторів і відображають тенденцію зв'язку між аналізованими показниками.

Для оцінки статистичної значущості рівняння загалом звернемося до значення F-критерію Фішера (див. таблицю 7.1). Розрахункове значення F-критерію = 117,51, табличне значеннякритерію, виходячи з відповідного числа ступенів свободи (для факторної дисперсії d.f. = 1, для залишкової дисперсії d.f. = 77), дорівнює 4,00 (див. додаток .....). Таким чином, Отже, рівняння регресії загалом статистично значуще. У разі можна говорити про статистичної значимості величини коефіцієнта детермінації, тобто. Варіація середньодушових доходів населення регіонах Росії на 60 відсотків можна пояснити варіацією обсягів валового регіонального продукту душу населення.

Проводячи оцінку статистичної значимості рівняння регресії та її параметрів, можемо отримати різне поєднання результатів.

· Рівняння за F-критерієм статистично значуще і всі параметри рівняння з t-статистики теж статистично значущі. Це рівняння може бути використане як для прийняття управлінських рішень (на які фактори слід впливати, щоб отримати бажаний результат), так і для прогнозування поведінки ознаки-результату при тих чи інших значеннях факторів.

· За F-критерієм рівняння статистично значуще, але незначні параметри (параметр) рівняння. Рівняння може бути використане для прийняття управлінських рішень (що стосуються тих факторів, якими отримано підтвердження статистичної значущості їх впливу), але рівняння не може бути використане для прогнозування.

· Рівняння за F-критерієм статистично незначне. Рівняння не можна використовувати. Слід продовжити пошук значимих ознак-факторів чи аналітичної форми зв'язку аргументу та відгуку.

Якщо доведено статистична значимість рівняння та її параметрів, може бути реалізований, про, точковий прогноз, тобто. отримано оцінку значення ознаки-результату (y) при тих чи інших значеннях фактора (x).

Цілком очевидно, що прогнозне значення залежної змінної, розраховане на основі рівняння зв'язку, не співпадатиме з фактичним її значенням ( ).Графічно ця ситуація підтверджується тим, що не всі точки поля кореляції лежать на лінії регресії,тільки при функціональному зв'язку лінія регресії пройде через усі точки діаграми розсіювання. Наявність розбіжностей між фактичними і теоретичними значеннями залежної змінної пов'язано, передусім, із суттю кореляційної залежності: одночасно на результат впливає безліч чинників, у тому числі лише частина може бути врахована у конкретному рівнянні зв'язку. Крім того, може бути неправильно обрана форма зв'язку результату та фактора (тип рівняння регресії). У зв'язку з цим постає питання, наскільки інформативно побудоване рівняння зв'язку. На це питання відповідають два показники: коефіцієнт детермінації (про нього вже говорилося вище) та стандартна помилка оцінювання.

Різницю між фактичними та теоретичними значеннями залежної змінної називають відхиленнями чи помилками, чи залишками. За підсумками цих величин розраховується залишкова дисперсія. Квадратний корінь із залишкової дисперсії і є середньоквадратичною (стандартною) помилкою оцінювання:

= (7.8)

Стандартна помилка рівняння вимірюється у тих самих одиницях, як і прогнозований показник. Якщо помилки рівняння підкоряються нормальному розподілу (при великих обсягах даних), то 95 відсотків значень повинні знаходитися від лінії регресії на відстані, що не перевищує 2S (виходячи з якості нормального розподілу - правила трьох сигм). Розмір стандартної помилки оцінювання використовується при розрахунку довірчих інтервалів при прогнозуванні значення ознаки - результату конкретної одиниці сукупності.

У практичних дослідженнях часто виникає необхідність у прогнозі середнього значення ознаки – результату при тому чи іншому значенні ознаки – фактора. У цьому випадку з розрахунку довірчого інтервалу для середнього значення залежної змінної()

враховується величина середньої помилки:

(7.9)

Використання різних величин помилок пояснюється тим, що мінливість рівнів показників у конкретних одиниць сукупності набагато вища, ніж мінливість середнього значення, отже помилка прогнозу середнього значення менше.

Довірчий інтервал прогнозу середнього значення залежної змінної:

, (7.10)

де - гранична помилка оцінки (див. теорію вибірки); t - коефіцієнт довіри, значення якого знаходиться у відповідній таблиці, виходячи з прийнятого дослідником рівня ймовірності (числа ступенів свободи) (див. теорію вибірки).

Довірчий інтервал для прогнозованого значення ознаки-результату може бути розрахований і з урахуванням поправки на зсув лінії лінії регресії. Величина поправочного коефіцієнта визначається:

(7.11)

де - значення ознаки-фактора, виходячи з якого, прогнозується значення ознаки-результату.

Звідси випливає, що чим більше значення відрізняється від середнього значення ознаки-фактора, тим більше величина коригуючого коефіцієнта, тим більша помилка прогнозу. З урахуванням даного коефіцієнта довірчий інтервал прогнозу розраховуватиметься:

На точність прогнозу з урахуванням рівняння регресії можуть проводити різні причини. Насамперед слід враховувати, що оцінка якості рівняння та його параметрів проводиться, виходячи з припущення про нормальний розподіл випадкових залишків. Порушення цього припущення може бути пов'язане з наявністю різко відмінних значень даних, з нерівномірною варіацією, з наявністю нелінійної залежності. І тут якість прогнозу знижується. Другий момент, про який слід пам'ятати, - значення факторів, що враховуються під час прогнозування результату, не повинні виходити за межі розмаху варіації даних, на основі яких побудовано рівняння.

©2015-2019 сайт
Усі права належати їх авторам. Цей сайт не претендує на авторства, а надає безкоштовне використання.
Дата створення сторінки: 2018-01-08

Перевірку значущості рівняння регресії зробимо на основі

F-критерія Фішера:

Значення F-критерію Фішера можна знайти у таблиці Дисперсійний аналіз протоколу Еxcel. Табличне значення F-критерію при довірчій ймовірності α = 0,95 і числі ступенів свободи, що дорівнює v1 = k = 2 і v2 = n - k - 1 = 50 - 2 - 1 = 47, становить 0,051.

Оскільки Fрасч > Fтабл, рівняння регресії слід визнати значним, тобто його можна використовуватиме аналізу та прогнозування.

Оцінку значимості коефіцієнтів отриманої моделі, використовуючи результати звіту Excel, можна здійснити трьома способами.

Коефіцієнт рівняння регресії визнається значущим у тому разі, якщо:

1) спостерігається значення t-статистики Стьюдента для цього коефіцієнта більше, ніж критичне (табличне) значення статистики Стьюдента (для заданого рівня значущості, наприклад α = 0,05, та числа ступенів свободи df = n – k – 1, де n – число спостережень, а k – число чинників моделі);

2) Р-значення t-статистики Стьюдента для цього коефіцієнта менше, ніж рівень значущості, наприклад α = 0,05;

3) довірчий інтервал для цього коефіцієнта, обчислений з деякою довірчою ймовірністю (наприклад, 95%), не містить нуль у собі, тобто нижня 95% і верхня 95% межі довірчого інтервалу мають однакові знаки.

Значення коефіцієнтів a1 і a2 перевіримо по другому та третьому способам:

P-значення ( a1 ) = 0,00 < 0,01 < 0,05.

Р-значення ( a2 ) = 0,00 < 0,01 < 0,05.

Отже, коефіцієнти a1 і a2 значущі за 1%-ном рівні, а тим паче при 5%-ном рівні значимості. Нижні та верхні 95% межі довірчого інтервалу мають однакові знаки, отже, коефіцієнти a1 і a2 значущі.

Визначення пояснюючої змінної, від якої

Може залежати дисперсія випадкових збурень.

Перевірка виконання умови гомоскедастичності

Залишків по тесту Гольдфельда-Квандта

При перевірці передумови МНК про гомоскедастичність залишків у моделі множинної регресії слід спочатку визначити, стосовно якого з факторів дисперсія залишків найбільше порушена. Це можна зробити в результаті візуального дослідження графіків залишків, побудованих за кожним із факторів, включених у модель. Та з пояснюючих змінних, від якої більше залежить дисперсія випадкових обурень, і буде впорядкована за зростанням фактичних значень під час перевірки тесту Гольдфельда-Квандта. Графіки легко отримати у звіті, який формується в результаті використання інструменту Регресія у пакеті Аналіз даних).

Графіки залишків по кожному з факторів двофакторної моделі

З представлених графіків видно, що дисперсія залишків найбільше порушена стосовно фактора Короткострокова дебіторська заборгованість.

Перевіримо наявність гомоскедастичності у залишках двофакторної моделі на основі тесту Гольдфельда-Квандта.

    Упорядкуємо змінні Y і X2 за зростанням фактора Х4 (в Excel для цього можна використовувати команду Дані - Сортування за зростанням Х4):

    Дані відсортовані за зростанням X4:

  1. Приберемо із середини впорядкованої сукупності С = 1/4 · n = 1/4 · 50 = 12,5 (12) значення. В результаті отримаємо дві сукупності відповідно з малими та великими значеннями Х4.

    Для кожної сукупності виконаємо розрахунки:

Сума

111234876536,511

966570797682,068

455748832843,413

232578961097,877

834043911651,192

193722998259,505

1246409153509,290

31419681912489,100

2172804245053,280

768665257272,099

2732445494273,330

163253156450,331

18379855056009,900

10336693841766,000

Сума

69977593738424,600

Рівняння для сукупностей

Y = -27275,746 + 0,126 X2 + 1,817 X4

Y = 61439,511 + 0,228 X2 + 0,140 X4

Результати даної таблиці отримано за допомогою інструмента Регресія по черзі до кожної з отриманих сукупностей.

4. Знайдемо ставлення отриманих залишкових сум квадратів

(у чисельнику має бути велика сума):

5. Висновок про наявність гомоскедастичності залишків робимо за допомогою F-критерію Фішера з рівнем значущості α = 0,05 та двома однаковими ступенями свободи k1 = k2 = == 17

де р - Число параметрів рівняння регресії:

Fтабл (0,05; 17; 17) = 9,28.

Так як Fтабл> R, то підтверджується гомоскедастичність в залишках двофакторної регресії.

Оцінка значущості параметрів рівняння регресії

Оцінка значущості параметрів рівняння лінійної регресії провадиться за допомогою критерію Стьюдента:

якщо tрозрах. > tкр, то приймається основна гіпотеза ( H o), що свідчить про статистичну значущість параметрів регресії;

якщо tрозрах.< tкр, то приймається альтернативна гіпотеза ( H 1), що свідчить про статистичну незначущість параметрів регресії.

де m a , m b– стандартні помилки параметрів aі b:

(2.19)

(2.20)

Критичне (табличне) значення критерію знаходиться за допомогою статистичних таблиць розподілу Стьюдента (додаток Б) або за таблицями Excel(Розділ майстра функцій «Статистичні»):

tкр = СТЬЮДРАСПОБР( α=1-P; k=n-2), (2.21)

де k=n-2також являє собою число ступенів свободи .

Оцінка статистичної значимості може бути застосована і до лінійного коефіцієнта кореляції

де m r– стандартна помилка визначення значень коефіцієнта кореляції r yx

(2.23)

Нижче представлені варіанти завдань для практичних та лабораторних робітза тематикою другого розділу.

Запитання для самоперевірки по 2 розділу

1. Вкажіть основні складові економетричної моделі та їхню сутність.

2. Основний зміст етапів економетричного дослідження.

3. Сутність підходів щодо визначення параметрів лінійної регресії.

4. Сутність та особливість застосування методу найменших квадратів при визначенні параметрів рівняння регресії.

5. Які показники використовуються для оцінки тісноти взаємозв'язку досліджуваних факторів?

6. Сутність лінійного коефіцієнтакореляції.

7. Сутність коефіцієнта детермінації.

8. Сутність та основні особливості процедур оцінки адекватності (статистичної значущості) регресійних моделей.

9. Оцінка адекватності лінійних регресійних моделей за коефіцієнтом апроксимації.

10. Сутність підходу оцінки адекватності регресійних моделей за критерієм Фішера. Визначення емпіричних та критичних значень критерію.

11. Сутність поняття «дисперсійний аналіз» стосовно економетричним дослідженням.

12. Сутність та основні особливості процедури оцінки значущості параметрів лінійного рівняннярегресії.

13. Особливості застосування розподілу Стьюдента в оцінці значущості параметрів лінійного рівняння регресії.

14. У чому завдання прогнозу поодиноких значень досліджуваного соціально-економічного явища?

1. Побудувати поле кореляції та сформулювати припущення про форму рівняння взаємозв'язку досліджуваних факторів;

2. Записати основні рівняння методу найменших квадратів, зробити необхідні перетворення, скласти таблицю для проміжних розрахунків та визначити параметри лінійного рівняння регресії;

3. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та електронних функцій таблиць Excel.

4. Провести аналіз результатів, сформулювати висновки та рекомендації.

1. Розрахунок значення лінійного коефіцієнта кореляції;

2. Побудова таблиці дисперсійного аналізу;

3. Оцінка коефіцієнта детермінації;

4. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та функцій електронних таблиць Excel.

5. Провести аналіз результатів, сформулювати висновки та рекомендації.

4. Провести загальну оцінкуадекватності обраного рівняння регресії;

1. Оцінка адекватності рівняння за значеннями коефіцієнта апроксимації;

2. Оцінка адекватності рівняння за значеннями коефіцієнта детермінації;

3. Оцінка адекватності рівняння за критерієм Фішера;

4. Провести загальну оцінку адекватності параметрів рівняння регресії;

5. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та функцій електронних таблиць Excel.

6. Провести аналіз результатів, сформулювати висновки та рекомендації.

1. Використання стандартних процедур майстра функцій електронних таблиць Excel (з розділів «Математичні» та «Статистичні»);

2. Підготовка даних та особливості застосування функції «ЛІНЕЙН»;

3. Підготовка даних та особливості застосування функції «ПЕРЕДСКАЗ».

1. Використання стандартних процедур пакету аналізу даних електронних таблиць Excel;

2. Підготовка даних та особливості застосування процедури «РЕГРЕСІЯ»;

3. Інтерпретація та узагальнення даних таблиці регресійного аналізу;

4. Інтерпретація та узагальнення даних таблиці дисперсійного аналізу;

5. Інтерпретація та узагальнення даних таблиці оцінки значущості параметрів рівняння регресії;

При виконанні лабораторної роботи за даними одного з варіантів необхідно виконати такі окремі завдання:

1. Здійснити вибір форми рівняння взаємозв'язку досліджуваних чинників;

2. Визначити параметри рівняння регресії;

3. Провести оцінку тісноти взаємозв'язку досліджуваних чинників;

4. Провести оцінку адекватності обраного рівняння регресії;

5. Здійснити оцінку статистичної значущості параметрів рівняння регресії.

6. Здійснити перевірку правильності проведених обчислень за допомогою стандартних процедур та функцій електронних таблиць Excel.

7. Провести аналіз результатів, сформулювати висновки та рекомендації.

Завдання для практичних та лабораторних робіт на тему «Парна лінійна регресія та кореляція в економетричних дослідженнях».

Варіант 1 Варіант 2 Варіант 3 Варіант 4 Варіант 5
x y x y x y x y x y
Варіант 6 Варіант 7 Варіант 8 Варіант 9 Варіант 10
x y x y x y x y x y