Параметри лінійного рівняння регресії обчислюються з урахуванням. Рівняння регресії

Тема:Елементи теорії кореляції

Об'єкти ряду генеральних сукупностейволодіють кількома ознаками Х, У, ..., які підлягають вивченню, які можна інтерпретувати як систему взаємопов'язаних величин. Прикладами можуть служити: маса тварини і кількість гемолабіну в крові, зростання чоловіка і об'єм грудної клітини, збільшення робочих місць у приміщенні та рівень захворюваності на вірусні інфекції, кількість препарату, що вводиться, і концентрація його в крові і т.д.

Очевидно, що між цими величинами існує зв'язок, але він не може бути суворою фукціональною залежністю, тому що на зміну однієї з величин впливає не лише зміна другої величини, а й інші фактори. У таких випадках кажуть, що дві величини пов'язані стохастичної(Тобто випадковою) залежністю. Ми вивчатимемо окремий випадокстохастичної залежності - кореляційну залежність.

ВИЗНАЧЕННЯ:стохастичної, якщо зміну однієї з них впливає як зміна другий величини, а й інші чинники.

ВИЗНАЧЕННЯ:Залежність випадкових величин називають статистичної,якщо зміни однієї з них призводить до зміни закону розподілу іншої.

ВИЗНАЧЕННЯ:Якщо зміна однієї з випадкових величин тягне за собою зміну середньої іншої випадкової величини, то статистичну залежність називають кореляційної.

прикладами кореляційної залежностіє зв'язки між:

Масою тіла та зростанням;

дозою іонізуючого випромінюваннята числом мутацій;

пігментом волосся людини та кольором очей;

показниками рівня життя населення та відсотком смертності;

кількістю пропущених студентами лекцій та оцінкою на іспиті тощо.

Саме кореляційні залежності найчастіше зустрічаються в природі в силу взаємовпливу і тісного переплетення величезної кількості різних факторів, що визначають значення досліджуваних показників.

Результати спостереження, проведені над тим чи іншим біологічним об'єктом за кореляційно пов'язаними ознаками У та Х можна зобразити точками на площині, побудувавши систему прямокутних координат. В результаті виходить деяка діаграма розсіювання, що дозволяє судити про форму і тісноту зв'язку між ознаками, що варіюють.

Якщо цей зв'язок можна буде аппроксимувати деякою кривою, то можна буде прогнозувати зміну одного з параметрів за цілеспрямованої зміни іншого параметра.

Кореляційну залежністьвід
можна описати за допомогою рівняння виду

(1)

г
де
умовне середнєвеличини , що відповідає значенню величини
, а
деяка функція. Рівняння (1) називається на
.

Рис.1. Лінійна регресіязначуща. Модель
.

функцію
називають вибірковою регресією на
, А її графік - вибірковою лінією регресії на
.

Абсолютно аналогічно вибірковим рівнянням регресії
на є рівняння
.

Залежно від виду рівняння регресії та форми відповідної лінії регресії визначають форму кореляційної залежності між аналізованими величинами – лінійної, квадратичної, показової, експоненційної.

Найважливішим є питання вибору виду функції регресії
[або
], наприклад лінійна або нелінійна (показова, логарифмічна і т.д.)

На практиці вид функції регресії можна визначити побудувавши на координатній площині безліч точок, що відповідають усім парам спостережень (
).

Рис. 2. Лінійна регресія незначна. Модель
.

Р
іс. 3. Нелінійна модель
.

Наприклад, на рис.1. видно тенденцію зростання значень зі зростанням
при цьому середні значення розташовується візуально на прямій. Має сенс використовувати лінійну модель (вид залежності від
прийнято називати моделлю) залежності від
.

На рис.2. середні значення не залежать від , Отже лінійна регресія незначна (функція регресії постійна і дорівнює ).

На рис. 3. простежується тенденція нелінійності моделі.

Приклади прямолінійної залежності:

збільшення кількості споживаного йоду та зниження показника захворюваності на зоб;

збільшення стажу робітника та підвищення продуктивності.

Приклади криволінійної залежності:

зі збільшенням опадів - збільшується врожай, але це відбувається до певної межі опадів. Після критичної точки опади вже виявляються зайвими, ґрунт заболочується і врожай знижується,

зв'язок між дозою хлору, застосованою для знезараження води та кількістю бактерій в 1 мл. води. Зі збільшенням дози хлору кількість бактерій у воді знижується, але по досягненню критичної точки кількість бактерій залишатиметься постійною (або зовсім не буде), як би ми не збільшували дозу хлору.

Лінійна регресія

Вибравши вид функції регресії, тобто. вид аналізованої моделі залежності від Х (або Х від У), наприклад, лінійну модель
необхідно визначити конкретні значення коефіцієнтів моделі.

При різних значеннях аі
можна побудувати нескінченну кількість залежностей виду
тобто на координатної площиниє нескінченна кількість прямих, нам необхідна така залежність, яка відповідає спостеріганим значенням найкращим чином. Таким чином, завдання зводиться до підбору найкращих коефіцієнтів.

Метод найменших квадратів (мнк)

Лінійну функцію
шукаємо, виходячи лише з деякої кількості наявних спостережень. Для знаходження функції з найкращою відповідністю спостеріганим значенням використовуємо метод найменших квадратів.

Рис.4. Пояснення до оцінки коефіцієнтів методом найменших квадратів

Позначимо: - значення, обчислене за рівнянням

- Виміряне значення,

- різниця між виміряними та обчисленими за рівнянням значеннями,

У методі найменших квадратівпотрібно, щоб , різниця між виміряними та обчисленими за рівнянням значеннями , була мінімальною. Отже, потрібно підібрати коефіцієнти аі так, щоб сума квадратів відхилень значень, що спостерігаються, від значень на прямій лінії регресії виявилася найменшою:

Ця умова досягається якщо параметри аі будуть обчислені за формулами:

називають коефіцієнтом регресії; називають вільним членомрівняння регресії.

Отримана пряма оцінка для теоретичної лінії регресії. Маємо

Отже,
є рівнянням лінійної регресії.

Регресія може бути прямою
та зворотній
.

ВИЗНАЧЕННЯ: Зворотня регресія означає, що при зростанні одного параметра значення іншого параметра зменшуються.

Парна лінійна регресія

ПРАКТИКУМ

Парна лінійна регрессія: Практикум. -

Вивчення економетрики передбачає набуття студентами досвіду побудови економетричних моделей, прийняття рішень щодо специфікації та ідентифікації моделі, вибору методу оцінки параметрів моделі, оцінки її якості, інтерпретації результатів, отримання прогнозних оцінок та ін. Практикум допоможе студентам набути практичних навичок у цих питаннях.

Затверджено редакційно-видавничою радою

Упорядник: М.Б. Перова, д.е.н., професор

загальні положення

Економетричне дослідження починається з теорії, яка встановлює зв'язок між явищами. З усього кола чинників, які впливають результативний ознака, виділяються найбільш істотні чинники. Після того, як було виявлено наявність взаємозв'язку між ознаками, що вивчаються, визначається точний вид цієї залежності за допомогою регресійного аналізу.

Регресійний аналізполягає у визначенні аналітичного виразу (у визначенні функції), в якому зміна однієї величини (результативної ознаки) обумовлена впливом незалежної величини(Факторної ознаки). Кількісно оцінити цей взаємозв'язок можна за допомогою побудови рівняння регресії або регресійної функції.

Базовою регресійною моделлю є модель парної (однофакторної) регресії. Парна регресія- Рівняння зв'язку двох змінних уі х:

де - Залежна змінна (результативний ознака);

-незалежна, що пояснює змінна (факторна ознака).

Залежно від характеру зміни узі зміною хрозрізняють лінійні та нелінійні регресії.

Лінійна регресія

Ця регресійна функція називається поліномом першого ступеня і використовується для опису процесів, що поступово розвиваються в часі.

Наявність випадкового члена (помилки регресії) пов'язано з впливом на залежну зміну інших неврахованих у рівнянні факторів, з можливою нелінійністю моделі, помилками виміру, отже, поява випадкової помилки рівняннярегресії може бути обумовлено наступними об'єктивними причинами:

1) нерепрезентативність вибірки. У модель парної регресії включається фактор, не здатний повністю пояснити варіацію результативної ознаки, який може бути схильний до впливу багатьох інших факторів (пропущених змінних) значно більшою мірою. Наприклад, заробітна плата може залежати, крім кваліфікації, від рівня освіти, стажу роботи, статі та ін.;

2) існує ймовірність того, що змінні, що беруть участь у моделі, можуть бути виміряні з помилкою. Наприклад, дані щодо витрат сім'ї на харчування складаються на підставі записів учасників опитувань, які, як передбачається, ретельно фіксують свої щоденні витрати. Зрозуміло, у своїй можливі помилки.

На основі вибіркового спостереження оцінюється вибіркове рівняння регресії ( лінія регресії):

де
- Оцінки параметрів рівняння регресії (
).

Аналітична форма залежностіміж досліджуваною парою ознак (регресійна функція) визначається за допомогою наступних методів:

На основі теоретичного та логічного аналізуприроди явищ, що вивчаються, їх соціально-економічної сутності. Наприклад, якщо вивчається залежність між доходами населення та розміром вкладів населення у банки, то очевидно, що зв'язок прямий.

Графічний методколи характер зв'язку оцінюється візуально.

Цю залежність можна наочно побачити, якщо побудувати графік, відклавши на осі абсцис значення ознаки х, але в осі ординат – значення ознаки у. Нанісши на графік точки, що відповідають значенням хі у, отримаємо кореляційне поле:

а) якщо точки безладно розкидані по всьому полю – це говорить про відсутність залежності між цими ознаками;

б) якщо точки концентруються навколо осі, що йде від нижнього лівого кута до верхнього правого – то є пряма залежність між ознаками;

в) якщо точки концентруються навколо осі, що йде від верхнього лівого кута до нижнього правого – то зворотня залежністьміж ознаками.

Якщо на кореляційному полі з'єднаємо точки відрізками прямою, то отримаємо ламану лініюз деякою тенденцією до зростання. Це буде емпірична лінія зв'язку або емпірична лінія регресії. За її виглядом можна судити не тільки про наявність, а й про форму залежності між ознаками, що вивчаються.

Побудова рівняння парної регресії

Побудова рівняння регресії зводиться оцінки її параметрів. Ці оцінки параметрів можна знайти різними способами. Одним з них є спосіб найменших квадратів (МНК). Суть методу полягає у наступному. Кожному значенню відповідає емпіричне (спостережуване) значення . Побудувавши рівняння регресії, наприклад, рівняння прямої лінії, кожному значенню відповідатиме теоретичне (розрахункове) значення . Значення, що спостерігаються не лежать у точності лінії регресії, тобто. не збігаються з . Різниця між фактичним та розрахунковим значеннями залежної змінної називається залишком:

МНК дозволяє отримати такі оцінки параметрів, за яких сума квадратів відхилень фактичних значень результативної ознаки увід теоретичних , тобто. сума квадратів залишків, мінімальна:

Для лінійних рівнянь та нелінійних, що наводяться до лінійних, вирішується така система щодо аі b:

де n- Чисельність вибірки.

Розв'язавши систему рівнянь, отримаємо значення аі bщо дозволяє записати рівняння регресії(Регресійне рівняння):

де - Пояснення (незалежна) змінна;

-Пояснюється (залежна) змінна;

Лінія регресії проходить через точку ( ,) та виконуються рівності:

Можна скористатися готовими формулами, які випливають із цієї системи рівнянь:

де - Середнє значення залежної ознаки;

-Середнє значення незалежної ознаки;

-Середнє арифметичне значення твору залежної та незалежної ознак;

-Дисперсія незалежної ознаки;

-Ковариація між залежним і незалежним ознаками.

Вибірковою коваріацієюдвох змінних х, уназивається середня величинатвори відхилень цих змінних від своїх середніх

Параметр bпри хмає велике практичне значенняі називається коефіцієнта регресії. Коефіцієнт регресіїпоказує, наскільки одиниць у середньому змінюється величина у хна 1 одиницю свого виміру.

Знак параметра bу рівнянні парної регресії вказує на напрямок зв'язку:

якщо
, то зв'язок між показниками, що вивчаються пряма, тобто. зі збільшенням факторної ознаки хзбільшується і результативна ознака у, і навпаки;

якщо
, то зв'язок між показниками, що вивчаються зворотний, тобто. зі збільшенням факторної ознаки хрезультативна ознака узменшується, і навпаки.

Значення параметру ау рівнянні парної регресії часом можна трактувати як початкове значення результативного ознаки у. Таке трактування параметра аможлива лише в тому випадку, якщо значення
має сенс.

Після побудови рівняння регресії, значення, що спостерігаються yможна уявити як:

Залишки , як і помилки , є випадковими величинамипроте вони, на відміну від помилок спостерігаються. Залишок є та частина залежної змінної y, яку неможливо пояснити за допомогою рівняння регресії

На підставі рівняння регресії можуть бути обчислені теоретичні значення у хдля будь-яких значень х.

p align="justify"> В економічному аналізі часто використовується поняття еластичності функції. Еластичність функції
розраховується як відносна зміна yдо відносної зміни x. Еластичність показує, на скільки відсотків змінюється функція
за зміни незалежної змінної на 1%.

Оскільки еластичність лінійної функції
не є постійною величиною, а залежить від х, зазвичай розраховується коефіцієнт еластичності як середній показник еластичності.

Коефіцієнт еластичностіпоказує, наскільки відсотків у середньому за сукупністю зміниться величина результативної ознаки упри зміні факторної ознаки хна 1% від свого середнього значення:

де
- Середні значення змінних хі уу вибірці.

Оцінка якості побудованої моделі регресії

Якість моделі регресії- Адекватність побудованої моделі вихідним (спостерігається) даним.

Щоб виміряти тісноту зв'язку, тобто. виміряти, наскільки вона близька до функціональної, потрібно визначити дисперсію, яка вимірює відхилення увід у хта характеризує залишкову варіацію, обумовлену іншими факторами. Вони лежать в основі показників, що характеризують якість моделі регресії.

Якість парної регресії визначається за допомогою коефіцієнтів, що характеризують

1) тісноту зв'язку - індексу кореляції, парного лінійного коефіцієнта кореляції;

2) помилку апроксимації;

3) якість рівняння регресії та окремих його параметрів – середні квадратичні помилки рівняння регресії загалом та окремих його параметрів.

Для рівнянь регресії будь-якого виду визначається індекс кореляції, що характеризує лише тісноту кореляційної залежності, тобто. ступінь її наближення до функціонального зв'язку:

де - Факторна (теоретична) дисперсія;

-Загальна дисперсія.

Індекс кореляції набуває значення
, при цьому,

якщо

якщо
- то зв'язок між ознаками хі ує функціональною, Чим ближче до 1, тим більше тісним вважається зв'язок між ознаками, що вивчаються. Якщо
, то зв'язок можна вважати тісним

Дисперсії, необхідні обчислення показників тісноти зв'язку обчислюються:

Загальна дисперсія, що вимірює загальну варіаціюза рахунок дії всіх факторів:

Факторна (теоретична) дисперсія,що вимірює варіацію результативної ознаки уза рахунок дії факторної ознаки х:

Залишкова дисперсія, що характеризує варіацію ознаки уза рахунок усіх факторів, крім х(тобто при виключеному х):

Тоді за правилом складання дисперсій:

Якість парної лінійноїрегресії може бути визначено також за допомогою парного лінійного коефіцієнта кореляції:

де
- Коваріація змінних хі у;

-Середньоквадратичне відхилення незалежної ознаки;

-Середньоквадратичне відхилення залежної ознаки.

Лінійний коефіцієнт кореляції характеризує тісноту і напрямок зв'язку між ознаками, що вивчаються. Він вимірюється не більше [-1; +1]:

якщо
- то зв'язок між ознаками прямий;

якщо
- то зв'язок між ознаками зворотний;

якщо
- то зв'язок між ознаками відсутня;

якщо
або
- то зв'язок між ознаками є функціональним, тобто. характеризується повною відповідністю між хі у. Чим ближче до 1, тим більше тісним вважається зв'язок між ознаками, що вивчаються.

Якщо індекс кореляції (парний лінійний коефіцієнт кореляції) звести квадрат, то отримаємо коефіцієнт детермінації.

Коефіцієнт детермінації– являє собою частку факторної дисперсії у загальній та показує, на скільки відсотків варіація результативної ознаки упояснюється варіацією факторної ознаки х:

Він характеризує не всю варіацію увід факторної ознаки х, лише ту її частина, що відповідає лінійному рівнянню регресії, тобто. показує питома вагаваріації результативної ознаки, лінійно пов'язаної з варіацією факторної ознаки.

Величина
- Частка варіації результативної ознаки, яку модель регресії врахувати не змогла.

Розсіювання точок кореляційного поля може бути дуже велике, і обчислене рівняння регресії може давати велику похибку в оцінці показника, що аналізується.

Середня помилка апроксимаціїпоказує середнє відхилення розрахункових значень від фактичних:

Максимально допустиме значення 12-15%.

Мірою розкиду залежної змінної навколо лінії регресії служить стандартна помилка. Для всієї сукупності значень, що спостерігаються, розраховується стандартна (середньоквадратична) помилка рівняння регресії, яка є середнім квадратичним відхиленням фактичних значень ущодо теоретичних значень, розрахованих за рівнянням регресії у х .

де
- Число ступенів свободи;

m- Число параметрів рівняння регресії (для рівняння прямої m=2).

Оцінити величину середньої квадратичної помилкиможна зіставивши її

а) із середнім значення результативної ознаки у;

б) із середнім квадратичним відхиленням ознаки у:

якщо
то використання даного рівняння регресії є доцільним.

Окремо оцінюються стандартні (Середньоквадратичні) помилки параметрів рівняння та індексу кореляції:

;
;
.

 х- Середнє квадратичне відхилення х.

Перевірка значущості рівняння регресії та показників тісноти зв'язку

Щоб побудовану модель можна було використовуватиме подальших економічних розрахунків, перевірки якості побудованої моделі недостатньо. Необхідно також перевірити значущість (суттєвість) отриманих з допомогою методу найменших квадратів оцінок рівняння регресії та показника тісноти зв'язку, тобто. необхідно перевірити їх у відповідність справжнім параметрам взаємозв'язку.

Це з тим, що обчислені за обмеженою сукупності показники зберігають елемент випадковості, властивий індивідуальним значенням ознаки. Тому є лише оцінками певної статистичної закономірності. Необхідна оцінка ступеня точності та значущості (надійності, суттєвості) параметрів регресії. Під значимістюрозуміють ймовірність того, що значення параметра, що перевіряється, не дорівнює нулю, не включає в себе величини протилежних знаків.

Перевірка значущості– перевірити, що параметри відрізняються від нуля.

Оцінка значущості парного рівняння регресіїзводиться до перевірки гіпотез про значущість рівняння регресії в цілому та окремих його параметрів ( a, b), парного коефіцієнта детермінації чи індексу кореляції.

У цьому випадку можуть бути висунуті наступні основні гіпотезиH 0 :

1)
- Коефіцієнти регресії є незначними і рівняння регресії також є незначним;

2)
– парний коефіцієнт детермінації незначний і рівняння регресії також незначним.

Альтернативною (або зворотною) виступають такі гіпотези:

1)
- Коефіцієнти регресії значно відрізняються від нуля, і побудоване рівняння регресії є значущим;

2)
– парний коефіцієнт детермінації істотно від нуля і побудоване рівняння регресії є значним.

Перевірка гіпотези про значущість рівняння парної регресії

Для перевірки гіпотези про статистичну незначущість рівняння регресії в цілому та коефіцієнта детермінації використовується F-Критерій(критерій Фішера):

або

де k 1 = m–1 ; k 2 = n– m - Число ступенів свободи;

n- Число одиниць сукупності;

m- Число параметрів рівняння регресії;

-факторна дисперсія;

-залишкова дисперсія.

Гіпотеза перевіряється так:

1) якщо фактичне (спостерігається) значення F-критерію більше критичного (табличного) значення даного критерію
, то з ймовірністю
основна гіпотеза про незначущість рівняння регресії або парного коефіцієнта детермінації відкидається, і рівняння регресії визнається значущим;

2) якщо фактичне (спостерігається) значення F-критерію менше критичного значення даного критерію
, то з ймовірністю (
) основна гіпотеза про незначущість рівняння регресії чи парного коефіцієнта детермінації приймається, і побудоване рівняння регресії визнається незначним.

Критичне значення F-критерія знаходиться за відповідними таблицями в залежності від рівня значущості та числа ступенів свободи
.

Число ступенів свободи- Показник, який визначається як різниця між обсягом вибірки ( n) та числом оцінюваних параметрів за даною вибіркою ( m). Для моделі парної регресії число ступенів свободи розраховується як
, оскільки за вибіркою оцінюються два параметри (
).

Рівень значущості - Величина, що визначається
,

де - Довірча ймовірність потрапляння оцінюваного параметра довірчий інтервал. Зазвичай приймається 0,95. Таким чином – це ймовірність того, що оцінюваний параметр не потрапить у довірчий інтервал, що дорівнює 0,05 (5%).

Тоді у разі оцінки значущості рівняння парної регресії критичне значення F-критерію обчислюється як
:

Перевірка гіпотези про значущість параметрів рівняння парної регресії та індексу кореляції

При перевірці значущості параметрів рівняння (припущення, що параметри відрізняються від нуля) висувається основна гіпотеза про незначність отриманих оцінок (
. Як альтернативна (зворотна) висувається гіпотеза про значущість параметрів рівняння (
).

Для перевірки висунутих гіпотез використовується t -Критерій (t-статистика) Стьюдента. Спостережуване значення t-критерія порівнюється зі значенням t-Критерію, що визначається за таблицею розподілу Стьюдента (критичним значенням). Критичне значення t-критерія
залежить від двох параметрів: рівня значущості та числа ступенів свободи
.

Висунуті гіпотези перевіряються так:

1) якщо модуль значення, що спостерігається t-критерію більше критичного значення t-Критерію, тобто.
, то з ймовірністю
основну гіпотезу про незначущість властивостей регресії відкидають, тобто. параметри регресії не дорівнюють 0;

2) якщо модуль значення, що спостерігається t-критерія менша або дорівнює критичному значенню t-Критерію, тобто.
, то з ймовірністю
Основна гіпотеза про незначущість властивостей регресії приймається, тобто. параметри регресії майже відрізняються від 0 чи рівні 0.

Оцінка значущості коефіцієнтів регресії за допомогою критерію Стьюдента проводиться шляхом зіставлення їх оцінок із величиною стандартної помилки:

;

Для оцінки статистичної значущості індексу (лінійного коефіцієнта) кореляції застосовується також t-Критерій Стьюдента.

Під час навчання студенти часто стикаються з різноманітними рівняннями. Одне з них – рівняння регресії – розглянуто у цій статті. Такий тип рівняння застосовується спеціально для опису характеристики зв'язку між математичними параметрами. Цей видрівностей використовують у статистиці та економетриці.

Визначення поняття регресії

У математиці під регресією мається на увазі певна величина, що описує залежність середнього значення сукупності даних від значень іншої величини. Рівняння регресії показує як функцію певної ознаки середнє значення іншої ознаки. Функція регресії має вигляд простого рівнянняу = х, в якому у виступає залежною змінною, а х - незалежною (ознака-фактор). Фактично регресія виражається як у = f(x).

Які бувають типи зв'язків між змінними

Загалом, виділяється два протилежні типи взаємозв'язку: кореляційна та регресійна.

Перша характеризується рівноправністю умовних змінних. У даному випадкудостовірно не відомо, яка змінна залежить від іншої.

Якщо ж між змінними немає рівноправності й умовах сказано, яка змінна пояснює, яка - залежна, можна говорити про наявність зв'язку другого типу. Для того, щоб побудувати рівняння лінійної регресії, необхідно буде з'ясувати, який тип зв'язку спостерігається.

Види регресій

На сьогоднішній день виділяють 7 різноманітних видів регресії: гіперболічна, лінійна, множинна, нелінійна, парна, зворотна, логарифмічно лінійна.

Гіперболічна, лінійна та логарифмічна

Рівняння лінійної регресії застосовують у статистиці для чіткого пояснення параметрів рівняння. Воно виглядає як у = с+т*х+Е. Гіперболічне рівняння має вигляд правильної гіперболи у = с + т / х + Е. Логарифмічно лінійне рівняння виражає взаємозв'язок за допомогою логарифмічної функції: In у = In з + т * In x + In E.

Множинна та нелінійна

Два більше складних видурегресії - це множинна та нелінійна. Рівняння множинної регресіївиражається функцією у = f (х 1, х 2 ... х с) + E. У цій ситуації у виступає залежною змінною, а х - що пояснює. Змінна Е – стохастична, вона включає вплив інших факторів у рівнянні. Нелінійне рівняннярегресії трохи суперечливо. З одного боку, щодо врахованих показників воно не лінійне, а з іншого боку, у ролі оцінки показників воно є лінійним.

Зворотні та парні види регресій

Зворотня - це такий вид функції, який необхідно перетворити на лінійний вигляд. У традиційних прикладних програмах вона має вигляд функції у = 1/с + т*х+Е. Парне рівняння регресії демонструє взаємозв'язок між даними як функції у = f(x) + Е. Так само, як і в інших рівняннях, у залежить від х, а Е - стохастичний параметр.

Поняття кореляції

Це показник, що демонструє існування взаємозв'язку двох явищ чи процесів. Сила взаємозв'язку виявляється як коефіцієнт кореляції. Його значення коливається у межах інтервалу [-1;+1]. Негативний показникговорить про наявність зворотнього зв'язкупозитивний - про пряму. Якщо коефіцієнт набуває значення, що дорівнює 0, то взаємозв'язку немає. Чим ближче значення до 1 – тим сильніший зв'язок між параметрами, чим ближче до 0 – тим слабше.

Методи

Кореляційні параметричні методи можуть оцінити тісноту взаємозв'язку. Їх застосовують з урахуванням оцінки розподілу вивчення параметрів, підпорядковуються закону нормального розподілу.

Параметри рівняння лінійної регресії необхідні ідентифікації виду залежності, функції регресійного рівняння та оцінювання показників обраної формули взаємозв'язку. Як метод ідентифікації зв'язку використовується поле кореляції. Для цього всі наявні дані необхідно зобразити графічно. У прямокутній двовимірній системі координат необхідно нанести всі відомі дані. Так утворюється поле кореляції. Значення описуючого чинника відзначаються вздовж осі абсцис, тоді як значення залежного - вздовж осі ординат. Якщо між параметрами є функціональна залежність, вони шикуються у формі лінії.

Якщо коефіцієнт кореляції таких даних буде менше 30 %, можна говорити про практично повну відсутність зв'язку. Якщо він знаходиться між 30% і 70%, це говорить про наявність зв'язків середньої тісноти. 100% показник – свідчення функціонального зв'язку.

Нелінійне рівняння регресії як і, як і лінійне, необхідно доповнювати індексом кореляції (R).

Кореляція для множинної регресії

Коефіцієнт детермінації є показником квадрата множинної кореляції. Він говорить про тісноті взаємозв'язку представленого комплексу показників з ознакою, що досліджується. Він може говорити про характер впливу параметрів на результат. Рівняння множинної регресії оцінюють за допомогою цього показника.

Щоб обчислити показник множинної кореляції, необхідно розрахувати його індекс.

Метод найменших квадратів

Цей метод є способом оцінювання факторів регресії. Його суть полягає у мінімізуванні суми відхилень у квадраті, отриманих внаслідок залежності фактора від функції.

Парне лінійне рівняння регресії можна оцінити з допомогою такого методу. Цей тип рівнянь використовують у разі виявлення між показниками парної лінійної залежності.

Параметри рівнянь

Кожен параметр функції лінійної регресії несе певний зміст. Парне лінійне рівняння регресії містить два параметри: с і т. Параметр т демонструє середню зміну кінцевого показника функції у, за умови зменшення (збільшення) змінної х на одну умовну одиницю. Якщо змінна х – нульова, то функція дорівнює параметру с. Якщо ж змінна х не нульова, то фактор не несе в собі економічний сенс. Єдиний вплив на функцію має знак перед фактором с. Якщо там мінус, то можна сказати про уповільнену зміну результату порівняно з фактором. Якщо там плюс, то це свідчить про прискорену зміну результату.

Кожен параметр, що змінює значення рівняння регресії, можна виразити через рівняння. Наприклад, фактор с має вигляд с = y - тх.

Згруповані дані

Бувають такі умови завдання, в яких вся інформація групується за ознакою x, але при цьому певної групизазначаються відповідні середні значення залежного показника. У разі середні значення характеризують, як змінюється показник, залежить від х. Таким чином, згрупована інформація допомагає знайти рівняння регресії. Її використовують як аналіз взаємозв'язків. Однак такий метод має свої недоліки. На жаль, середні показники досить часто зазнають зовнішніх коливань. Дані коливання є відображенням закономірності взаємозв'язку, вони лише маскують її «шум». Середні показники демонструють закономірності взаємозв'язку набагато гірше, ніж рівняння лінійної регресії. Однак їх можна застосовувати у вигляді бази для пошуку рівняння. Перемножуючи чисельність окремої сукупності на відповідну середню можна отримати суму в межах групи. Далі необхідно підбити всі отримані суми і знайти кінцевий показник. Трохи складніше робити розрахунки з показником суми ху. Якщо інтервали малі, можна умовно взяти показник х для всіх одиниць (у межах групи) однаковим. Слід перемножити його із сумою у, щоб дізнатися суму творів x на у. Далі всі суми підбиваються разом і виходить Загальна сумаху.

Множинне парне рівняння регресії: оцінка важливості зв'язку

Як розглядалося раніше, множинна регресія має функцію виду у = f (x 1 x 2 ... x m) + E. Найчастіше таке рівняння використовують для вирішення проблеми попиту та пропозиції на товар, відсоткового доходу за викупленими акціями, вивчення причин та виду функції витрат виробництва. Її також активно застосовують у найрізноманітніших макроекономічних дослідженнях і розрахунках, а на рівні мікроекономіки таке рівняння застосовують трохи рідше.

Основним завданням множинної регресії є побудова моделі даних, що містять величезну кількість інформації, для того щоб надалі визначити, який вплив має кожен із факторів окремо та в їхній загальній сукупності на показник, який необхідно змоделювати, та його коефіцієнти. Рівняння регресії може набувати найрізноманітніших значень. При цьому для оцінки взаємозв'язку зазвичай використовується два типи функцій: лінійна та нелінійна.

Лінійна функція зображується у формі такого взаємозв'язку: у = а 0 + a 1 х 1 + а 2 х 2 + + + m x m . У цьому а2, a m , вважаються коефіцієнтами «чистої» регресії. Вони необхідні для характеристики середньої зміни параметра зі зміною (зменшенням або збільшенням) кожного відповідного параметра х на одну одиницю, з умовою стабільного значення інших показників.

Нелінійні рівняння мають, наприклад, вигляд статечної функціїу=ах 1 b1 х 2 b2 ... x m bm. У разі показники b 1 , b 2 ..... b m - називаються коефіцієнтами еластичності, демонструють, як зміниться результат (на скільки %) зі збільшенням (зменшенні) відповідного показника x 1 % і за стабільному показнику інших чинників.

Які фактори необхідно враховувати при побудові множинної регресії

Для того, щоб правильно побудувати множинну регресію, необхідно з'ясувати, на які саме фактори слід звернути особливу увагу.

Необхідно мати певне розуміння природи взаємозв'язків між економічними факторамиі моделюється. Чинники, які потрібно буде включати, повинні відповідати таким признакам:

Повинні бути підвладні кількісному виміру. Для того щоб використовувати фактор, який описує якість предмета, у будь-якому випадку слід надати йому кількісну форму.
Не повинна бути інтеркореляція факторів, або функціональний взаємозв'язок. Такі дії найчастіше призводять до незворотних наслідків – система звичайних рівняньстає не обумовленою, а це тягне за собою її ненадійність та нечіткість оцінок.
У разі існування величезного показника кореляції немає способу для з'ясування ізольованого впливу факторів на остаточний результатпоказника, отже, коефіцієнти стають неінтерпретованими.

Методи побудови

Існує велика кількістьметодів і способів, які пояснюють, як можна вибрати чинники рівняння. Проте ці методи будуються на відборі коефіцієнтів з допомогою показника кореляції. Серед них виділяють:

Спосіб виключення.
Спосіб включення.
Покроковий аналіз регресії.

Перший метод має на увазі відсів усіх коефіцієнтів із сукупного набору. Другий метод включає введення множини додаткових факторів. Ну а третій – відсів факторів, які були раніше застосовані для рівняння. Кожен із цих методів має право на існування. Вони мають свої плюси та мінуси, але вони всі по-своєму можуть вирішити питання відсіву непотрібних показників. Як правило, результати, отримані кожним окремим методом, Досить близькі.

Методи багатовимірного аналізу

Такі методи визначення чинників базуються на розгляді окремих поєднань взаємозалежних ознак. Вони включають дискримінантний аналіз, розпізнання видів, метод основних компонентів і аналіз кластерів. Крім того, існує факторний аналіз, однак він з'явився внаслідок розвитку способу компонент. Усі вони застосовуються у певних обставинах, за наявності певних умов та факторів.

х - називається предиктором - незалежною чи пояснює змінною.

Для даної величини х, Y — значення змінної у (званої залежної, вихідний змінної, або змінної відгуку), яке розташоване на лінії оцінки. Це є значення, яке ми очікуємо для у (у середньому), якщо знаємо величину х, і називається вона «передбачене значення у» (рис. 5).

а - вільний член (перетин) лінії оцінки; це значення Y, коли x = 0.

b - кутовий коефіцієнтабо градієнт оціненої лінії; він є величину, яку Y збільшується загалом, якщо ми збільшуємо х одну одиницю (рис. 5). Коефіцієнт b називають коефіцієнтом регресії.

Наприклад: зі збільшенням температури тіла людини на 1 про З, частота пульсу збільшується загалом на 10 ударів на хвилину.

Рисунок 5. Лінія лінійної регресії, що показує коефіцієнт ата кутовий коефіцієнт b(величину зростання Yпри збільшенні хна одну одиницю)

Математично рішення рівняння лінійної регресії зводиться до обчислення параметрів а та b таким чином, щоб точки вихідних даних кореляційного поля якомога ближче лежали до прямої регресії .

Статистичне використання слова «регресія» виходить із явища, відомого як регресія до середнього, що приписується Френсісу Гальтон (1889). Він показав, що хоча вищі батьки мають тенденцію мати високих синів, середнє зростання синів менше, ніж у їхніх високих батьків. Середнє зростання синів «регресував» чи «рухався назад» до середнього зростання всіх батьків у популяції. Таким чином, у середньому високі батьки мають нижчих (але все-таки високих) синів, а низькі батьки мають синів вищі (але все-таки досить низькі).

Ми спостерігаємо регресію до середнього при скринінгу та клінічних дослідженнях, коли підгрупа пацієнтів може бути обрана для лікування тому, що їхні рівні певної змінної, скажімо, холестерину, вкрай високі (або низькі). Якщо цей вимір через деякий час повторюється, середня величина другого зчитування для підгрупи зазвичай менша, ніж при першому зчитуванні, маючи тенденцію (тобто регресуючи) до середнього, підібраного за віком та статтю у популяції, незалежно від лікування, яке вони можуть отримати . Пацієнти, набрані у клінічне дослідження на основі високого рівняхолестерину при їхньому першому огляді, таким чином, ймовірно, покажуть у середньому падіння рівня холестерину при другому огляді, навіть якщо в цей період вони не лікувалися.

Часто метод регресійного аналізу застосовується розробки нормативних шкал і стандартів фізичного розвитку.

Наскільки добре лінія регресії узгоджується з даними, можна судити, розрахувавши коефіцієнт R (зазвичай виражений у відсотках і називається коефіцієнтом детермінації), що дорівнює квадрату коефіцієнта кореляції (r 2). Він є частку чи відсоток дисперсії у, який можна пояснити зв'язком з х, тобто. частку варіації ознаки-результату, що склалася під впливом незалежної ознаки. Може приймати значення від 0 до 1, або відповідно від 0 до 100%. Різниця (100% - R) є відсотком дисперсії у, який не можна пояснити цією взаємодією.

приклад

Співвідношення між зростанням (виміряним у см) та систолічним артеріальним тиском (САД, виміряним у мм рт. ст.) у дітей. Ми провели аналіз парної лінійної регресії залежно від САТ від зростання (рис. 6). Є суттєве лінійне співвідношення між зростанням та САД.

Малюнок 6. Двовимірний графік, що показує співвідношення між артеріальним систолічним тиском і зростанням. Зображено оцінену лінію регресії, систолічний артеріальний тиск.

Рівняння лінії оціненої регресії має такий вигляд:

САД = 46,28 + 0,48 х зростання.

У цьому прикладі вільний член не представляє інтересу (зростання, що дорівнює нулю, явно поза діапазоном величин, що спостерігаються в дослідженні). Проте ми можемо інтерпретувати кутовий коефіцієнт; передбачено, що з цих дітей САД збільшується загалом на 0,48 мм рт.ст. зі збільшенням зростання однією сантиметр

Ми можемо застосувати рівняння регресії для передбачення САД, яке очікуємо у дитини при цьому зростанні. Наприклад, дитина зріст 115 см має передбачене САД, що дорівнює 46,28 + (0,48 х 115) = 101,48 мм рт. ст., дитина зростанням 130 має передбачене САД, 46,28 + (0,48 х 130) = 108,68 мм рт. ст.

При розрахунку коефіцієнта кореляції встановлено, що він дорівнює 0,55, що вказує на прямий кореляційний зв'язок середньої сили. У цьому випадку коефіцієнт детермінації r 2 = 0,55 2 = 0,3. Таким чином, можна сказати, що частка впливу зростання на рівень артеріального тиску у дітей не перевищує 30% відповідно на частку інших факторів припадає 70% впливу.

Лінійна (проста) регресія обмежується розглядом зв'язку між залежною змінною та лише однією незалежною змінною. Якщо у зв'язку є більше однієї незалежної змінної, тоді нам необхідно звернутися до множинної регресії. Рівняння для такої регресії виглядає так:

y = a + bx 1 +b 2 x 2 +.... + b n х n

Можна цікавитися результатом впливу кількох незалежних змінних х 1, х 2, .., х n на змінну відгуку. Якщо ми вважаємо, що ці х можуть бути взаємозалежні, то не повинні окремо дивитися на ефект зміни значення одного х на у, але повинні одночасно брати до уваги величини всіх інших х.

приклад

Оскільки між зростанням і масою тіла дитини існує сильна залежність, можна поцікавитися, чи змінюється також співвідношення між зростанням і систолічним артеріальним тиском, якщо взяти до уваги також і масу тіла дитини та її стать. Множинна лінійна регресія дозволяє вивчити спільний ефект цих кількох незалежних змінних на у.

Рівняння множинної регресії у разі може мати такий вид:

САД = 79,44 - (0,03 х зростання) + (1,18 х вага) + (4,23 х підлога) *

* - (для ознаки стать використовують значення 0 - хлопчик, 1 - дівчинка)

Відповідно до цього рівняння, дівчинка, зріст якої 115 см і маса тіла 37 кг, матиме прогнозований САД:

САД = 79,44 – (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.

Логістична регресія дуже схожа на лінійну; її застосовують, коли є бінарний результат, що цікавить нас (тобто наявність/відсутність симптому або суб'єкта, який має/не має захворювання) і ряд предикторов. З рівняння логістичної регресії можна визначити, які предиктори впливають на результат, і, використовуючи значення предикторов пацієнта, оцінити ймовірність, що він/вона матиме певний результат. Наприклад: виникнуть чи ні ускладнення, буде лікування ефективним чи не буде.

Починають створення бінарної змінної, щоб представити ці два результати (наприклад, має хворобу = 1, не має хвороби = 0). Проте ми можемо застосувати ці два значення як залежну змінну в аналізі лінійної регресії, оскільки припущення нормальності порушено, і ми можемо інтерпретувати передбачені величини, які дорівнюють нулю чи одиниці.

Фактично, натомість ми беремо ймовірність того, що суб'єкт класифікується в найближчу категорію (тобто «має хворобу») залежною змінною, і щоб подолати математичні труднощі, застосовують логістичне перетворення в рівнянні регресії. натуральний логарифмвідношення ймовірності "хвороби" (p) до ймовірності "немає хвороби" (1-p).

Інтегративний процес, званий методом максимальної правдоподібності, а не звичайна регресія (оскільки ми не можемо застосувати процедуру лінійної регресії) створює з даних вибірки оцінку рівняння логістичної регресії

logit(p) = a + bx 1 +b 2 x 2 +.... + b n х n

logit (р) - оцінка значення істинної ймовірності того, що пацієнт з індивідуальним набором значень для x 1 ... x n має захворювання;

а - оцінка константи (вільний член, перетин);

b 1, b 2, ..., b n - Оцінки коефіцієнтів логістичної регресії.

1. Питання на тему заняття:

1. Дайте визначення функціонального та кореляційного зв'язку.

2. Наведіть приклади прямого та зворотного кореляційного зв'язку.

3. Вкажіть розміри коефіцієнтів кореляції при слабкій, середній та сильного зв'язкуміж ознаками.

4. У яких випадках застосовується ранговий методобчислення коефіцієнта кореляції?

5. У яких випадках застосовується розрахунок коефіцієнта кореляції Пірсона?

6. Якими є основні етапи обчислення коефіцієнта кореляції ранговим методом?

7. Дайте визначення «регресії». У чому суть методу регресії?

8. Охарактеризуйте формулу рівняння простої лінійної регресії.

9. Дайте визначення коефіцієнта регресії.

10. Який можна зробити висновок, якщо коефіцієнт регресії ваги зростання дорівнює 0,26кг/см?

11. Навіщо використовується формула рівняння регресії?

12. Що таке коефіцієнт детермінації?

13. У яких випадках використовується рівняння множинної регресії.

14. Навіщо застосовується метод логістичної регресії?

Міністерство освіти та науки РФ

Федеральне агентство з освіти

Державне освітня установавищої професійної освіти

Всеросійський заочний фінансово-економічний інститут

Філія у м. Тулі

Контрольна робота

з дисципліни «Економетрика»

Тула – 2010 р.

Завдання 2 (а, б)

По підприємствам легкої промисловості отримано інформацію, що характеризує залежність обсягу випуску продукції (Y, млн. крб.) від обсягу капіталовкладень (Х, млн. крб.) табл. 1.

Х	33	17	23	17	36	25	39	20	13	12
Y	43	27	32	29	45	35	47	32	22	24

Потрібно:

1. Знайти параметри рівняння лінійної регресії, дати економічну інтерпретацію коефіцієнта регресії.

2. Обчислити залишки; знайти залишкову сумуквадратів; оцінити дисперсію залишків

; побудувати графік залишків.

3. Перевірити виконання передумов МНК.

4. Здійснити перевірку значущості параметрів рівняння регресії за допомогою t-критерію Стьюдента (α=0,05).

5. Обчислити коефіцієнт детермінації, перевірити значущість рівняння регресії за допомогою F-критерію Фішера (α=0,05), знайти середню відносну помилку апроксимації. Зробити висновок якість моделі.

6. Здійснити прогнозування середнього значення показника Y за рівня значущості α=0,1, якщо прогнозне значення фактора Х складе 80% від його максимального значення.

7. Уявити графічно: фактичні та модельні значення Y, точки прогнозу.

8. Скласти рівняння нелінійної регресії:

гіперболічній;

статечної;

показовою.

Навести графіки побудованих рівнянь регресії.

9. Для зазначених моделей знайти коефіцієнти детермінації та середні відносні помилкиапроксимації. Порівняти моделі за цими характеристиками та зробити висновок.

1. Лінійна модельмає вигляд:

Параметри рівняння лінійної регресії знайдемо за формулами

Розрахунок значення параметрів представлений у табл. 2.

t	y	x	yx
1	43	33	1419	1089	42,236	0,764	0,584	90,25	88,36	0,018
2	27	17	459	289	27,692	-0,692	0,479	42,25	43,56	0,026
3	32	23	736	529	33,146	-1,146	1,313	0,25	2,56	0,036
4	29	17	493	289	27,692	1,308	1,711	42,25	21,16	0,045
5	45	36	1620	1296	44,963	0,037	0,001	156,25	129,96	0,001
6	35	25	875	625	34,964	0,036	0,001	2,25	1,96	0,001
7	47	39	1833	1521	47,69	-0,69	0,476	240,25	179,56	0,015
8	32	20	640	400	30,419	1,581	2,500	12,25	2,56	0,049
9	22	13	286	169	24,056	-2,056	4,227	110,25	134,56	0,093
10	24	12	288	144	23,147	0,853	0,728	132,25	92,16	0,036
∑	336	235	8649	6351	12,020	828,5	696,4	0,32
Середн.	33,6	23,5	864,9	635,1