Біографії Характеристики Аналіз

Прогноз щодо лінійного рівняння регресії. Прогнозування за моделлю множинної регресії

Лінійна регресія є найчастіше використовуваним видом регресійного аналізу. Нижче наведено три основні завдання, які вирішуються в маркетингових дослідженнях за допомогою лінійного регресійного аналізу.

1. Визначення того, які приватні параметри продукту впливають на загальне враженняспоживачів від цього товару. Встановлення напряму та сили даного впливу. Розрахунок, яким буде значення результуючого параметра за тих чи інших значеннях приватних параметрів. Наприклад, потрібно встановити, як впливає вік респондента та його середньомісячний дохід на частоту покупок глазурованих сирків.

2. Виявлення те, які приватні показники товару впливають загальне враження споживачів від цього товару (побудова схеми вибору товару споживачами). Встановлення співвідношення між різними приватними параметрами за силою та напрямом впливу на загальне враження. Наприклад, є оцінки респондентами двох характеристик меблів виробника X - ціни та якості, - а також Загальна оцінкамеблів даного виробника. Потрібно встановити, який із двох параметрів є найбільш значущим для покупців при виборі виробника меблів і в якому конкретному співвідношенні знаходиться значущість для покупців цих двох факторів (параметр Ціна в х разів більш значущий для покупців при виборі меблів, ніж параметр Якість).

3. Графічне прогнозування поведінки однієї змінної залежно від зміни інший (використовується лише двох змінних). Як правило, метою проведення регресійного аналізу в даному випадкує не стільки розрахунок рівняння, скільки побудова тренда (тобто апроксимуючою кривою, що графічно показує залежність між змінними). За отриманим рівнянням можна передбачити, яким буде значення однієї змінної при зміні (збільшенні чи зменшенні) іншою. Наприклад, потрібно встановити характер залежності між часткою респондентів, обізнаних про різні марки глазурованих сирків, і часткою респондентів, які купують дані марки. Також потрібно розрахувати, наскільки зросте частка покупців сирків марки x зі збільшенням споживчої обізнаності на 10 % (внаслідок проведення рекламної кампанії).

Залежно від типу розв'язуваної задачі вибирається вид лінійного регресійного аналізу. Найчастіше (1 і 2) застосовується множинна лінійна регресія, у якій досліджується вплив кількох незалежних змінних однією залежну. У разі 3 застосовна лише проста лінійна регресія, в якій беруть участь лише одна незалежна та одна залежна змінні. Це з тим, що основним результатом аналізу у разі 3 є лінія тренду, яка може бути логічно інтерпретована лише двомірному просторі. У загальному випадкурезультатом проведення регресійного аналізу є побудова рівняння регресії виду: у = а + Ь, х, + Ь2х2 + ... + Ь„хп, що дозволяє розрахувати значення залежної змінної при різних значеннях незалежних змінних.

У табл. 4.6 представлені основні характеристики змінних, що у аналізі.

Таблиця 4.6. Основні характеристики змінних, що беруть участь у лінійному регресійному аналізі

У зв'язку з тим що і множина проста регресіїбудуються в SPSS однаковим способом, розглянемо загальний випадок множини лінійної регресіїяк найбільш повно розкриває суть описуваного статистичного методу. Розгляньмо, як побудувати лінію тренда з метою статистичного прогнозування.

Початкові дані:

У ході опитування респондентів, що літають одним із трьох класів (першим, бізнес-або економ-класом), просили оцінити за п'ятибальною шкалою - від 1 (дуже погано) до 5 (відмінно) - наступні характеристики сервісу на борту літаків авіакомпанії X: комфортабельність салону , робота бортпровідників, харчування під час польоту, ціна квитків, спиртні напої, дорожні набори, аудіопрограми, відеопрограми та преса. Також респондентам пропонувалося поставити загальну (підсумкову) оцінку обслуговування на борту літаків цієї авіакомпанії.

Для кожного класу польоту потрібно:

1) Виявити найбільш значущі респондентів параметри обслуговування на борту.

2) Встановити, який впливають оцінки приватних параметрів обслуговування борту загальне враження авіапасажирів від польоту.

Відкрийте діалогове вікно Linear Regression за допомогою меню Analyze Regression Linear. З лівого списку виберіть залежну змінну для аналізу. Це буде загальна оцінка сервісу на борту. Помістіть її в область Dependent. Далі у лівому списку виберіть незалежні змінні для аналізу: приватні параметри сервісу на борту - і помістіть їх у Independent(s).

Існує кілька методів проведення регресійного аналізу: enter, stepwise, forward та backward. Не вдаючись у статистичні тонкощі, проведемо регресійний аналіз за допомогою покрокового методу backward як найбільш універсального та релевантного для всіх прикладів з маркетингових досліджень.

Так як завдання аналізу містить вимогу провести регресійний аналіз у розрізі трьох класів польоту, виберіть у лівому списку змінну, яка позначає клас (q5) і перенесіть її в область Selection Variable. Потім натисніть кнопку Rule, щоб задати конкретне значення даної змінної для регресійного аналізу. Слід зазначити, що за одну ітерацію можна збудувати регресію лише в розрізі якогось одного класу польоту. Надалі слід повторити всі етапи спочатку за кількістю класів (3), щоразу вибираючи наступний клас.

Якщо немає необхідності проводити регресійний аналіз у будь-якому розрізі, залиште поле Selection Variable порожнім.

Отже, на екрані відкрилося діалогове вікно Set Rule, в якому ви повинні вказати, для якого класу польоту ви хочете побудувати регресійну модель. Виберіть економічний клас, закодований як 3 (рис. 4.26).

У більш складних випадках, коли потрібно побудувати регресійну модель у межах трьох і більше змінних, слід скористатися умовним відбором даних (див. розділ 1.5.1). Наприклад, якщо крім класу польоту є ще й необхідність роздільної побудови регресійної моделі для респондентів (чоловіків та жінок), необхідно перед відкриттям діалогового вікна Linear Regression зробити умовний відбір анкет респондентів, які є чоловіками. Далі проводиться регресійний аналіз за схемою, що описується. Для побудови регресії жінкам слід повторити всі етапи спочатку: спочатку вибрати лише анкети респондентів-жінок і потім вже їм побудувати регресійну модель.

Клацніть на кнопці Continue у діалоговому вікні Set Rule – ви знову повернетесь до основного діалогового вікна Linear Regression. Останнім кроком перед запуском процедури побудови регресійної моделі є вибір пункту Collinearity Diagnostics у діалоговому вікні, що з'являється при натисканні на кнопці Statistics (рис. 4.27). Встановлення вимоги провести діагностику наявності колінеарності між незалежними змінними дозволяє уникнути ефекту мультиколінеарності, при якому кілька незалежних змінних можуть мати настільки сильну кореляцію, що в регресійній моделі позначають, в принципі, те саме (це неприйнятно).


Розглянемо основні елементи звіту про побудову регресійної моделі (вікно SPSS Viewer), які мають найбільш значущі для дослідника дані. Слід зазначити, що це таблиці, представлені у звіті Output, містять кілька блоків, відповідних кількості кроків SPSS при побудові моделі. На кожному кроці при використовуваному методі backward з повного спискунезалежних змінних, введених у модель спочатку, за допомогою найменших приватних коефіцієнтів кореляції послідовно виключаються змінні - доти, доки відповідний коефіцієнт регресії не виявляється незначним (Sig>0,05). У прикладі таблиці складаються з трьох блоків (регресія будувалася в три кроки). При інтерпретації результатів регресійного аналізу слід звертати увагу лише останній блок (у разі 3).

Перше, що слід звернути увагу, - це таблиця ANOVA (рис. 4.29). На третьому кроці статистична значимість (стовпець Sig) має бути меншою або дорівнює 0,05.

Потім слід розглянути таблицю Model Summary, що містить важливу інформацію про побудовану модель (рис. 4.30). Коефіцієнт детермінації R є характеристикою загальної сили лінійного зв'язкуміж змінними у регресійній моделі. Він показує, наскільки добре вибрані незалежні змінні здатні визначати поведінку залежної змінної. Що коефіцієнт детермінації (змінюється не більше від 0 до 1), то краще обрані незалежні змінні підходять визначення поведінки залежної змінної. Вимоги до коефіцієнта R такі самі, як коефіцієнта кореляції (див. табл. 4.4): у випадку він повинен перевищувати хоча б 0,5. У прикладі R = 0,66, що є прийнятним показником.



Також важливою характеристикоюРегрессионной моделі є коефіцієнт R2, що показує, яка частка сукупної варіації залежної змінної описується обраним набором незалежних змінних. Величина R2 змінюється від 0 до 1. Як правило, цей показник повинен перевищувати 0,5 (чим він вищий, тим більш показово побудована регресійна модель). У прикладі R2 =■ 0,43 - це, що регресійної моделлю описано лише 43 % випадків (дисперсії у підсумковій оцінці польоту). Таким чином, при інтерпретації результатів регресійного аналізу слід мати на увазі суттєве обмеження: побудована модель справедлива лише для 43 % випадків.

Третім практично значущим показником, що визначає якість регресійної моделі, є величина стандартної помилки розрахунків (стовпець Std. Error of the Estimate). Даний показник варіюється в межах від 0 до 1. Чим він менший, тим надійніше модель (загалом показник повинен бути меншим за 0,5). У прикладі помилка становить 0,42, що є завищеним, але загалом прийнятним результатом.

З таблиць AN OVA і Model Summary можна будувати висновки про практичної придатності побудованої регресійної моделі. Враховуючи, що AN OVA показує дуже високу значущість (менше 0,001), коефіцієнт детермінації перевищує 0,6, а стандартна помилка розрахунків менше 0,5 можна зробити висновок про те, що з урахуванням обмеження модель описує 43% сукупної дисперсії, тобто побудована регресійна модель є статистично значущою та практично прийнятною.


Після того, як ми констатували прийнятний рівень якості регресійної моделі, можна розпочинати інтерпретацію її результатів. Основні практичні результати регресії містяться у таблиці Coefficients (рис. 4.31). Під таблицею ви можете бачити, яка змінна була залежною (загальна оцінка сервісу на борту) і якого класу польоту відбувалося побудова регресійної моделі (економ-клас). У таблиці Coefficients практично значущими є чотири показники: VIF, Beta, B та Std. Error. Розглянемо послідовно, як слід інтерпретувати.

Насамперед необхідно виключити можливість виникнення ситуації мультиколлінеарності (див. вище), за якої кілька змінних можуть позначати майже одне й те саме. Для цього необхідно подивитися на значення VIF біля кожної незалежної змінної. Якщо величина даного показника менше 10 - значить, ефекту мультиколінеарності не спостерігається і регресійна модель є прийнятною для подальшої інтерпретації. Що цей показник, то більше пов'язані між собою змінні. Якщо будь-яка змінна перевищує значення 10 VIF, слід перерахувати регресію без цієї незалежної змінної. У даному прикладіавтоматично зменшиться величина R2 і зросте величина вільного члена (константи), проте, незважаючи на це, нова регресійна модель буде практично прийнятніша, ніж перша.

У першому стовпці таблиці Coefficients містяться незалежні змінні, що становлять регресійне рівняння (що задовольняють вимогу статистичної значущості). У нашому випадку до регресійної моделі входять усі приватні характеристики сервісу на борту літака, крім аудіопрограм. Виключені змінні містяться у таблиці Excluded Variables (тут не наводиться). Отже, ми можемо зробити перший висновок, що на загальне враження авіапасажирів від польоту впливають сім параметрів: комфортабельність салону, робота бортпровідників, харчування під час польоту, спиртні напої, дорожні набори, відеопрограми та преса.

Після того, як ми визначили склад параметрів, що формують підсумкове враження від польоту, можна визначити напрямок та силу впливу на нього кожного окремого параметра. Це дозволяє зробити стовпець Beta, що містить стандартизовані коефіцієнти регресії. Дані коефіцієнти також дозволяють порівняти силу впливу параметрів між собою. Знак (+ або -) перед -коефіцієнтом показує напрямок зв'язку між незалежною та залежною змінними. Позитивні -коефіцієнти свідчать, що зростання величини даного приватного параметра збільшує залежну змінну (у разі всі незалежні змінні поводяться подібним чином). Негативні коефіцієнти означають, що при зростанні цього окремого параметра загальна оцінка знижується. Як правило, при визначенні зв'язку між оцінками параметрів це свідчить про помилку і означає, наприклад, вибірка занадто мала.

Наприклад, якби перед - коефіцієнтом параметра роботи бортпровідників стояв знак -, його слід було б інтерпретувати так: чим гірше працюють бортпровідники, тим краще стає загальне враження пасажирів від польоту. Така інтерпретація є безглуздою і не відображає реального стану речей, тобто хибною. У разі краще перерахувати регресію без даного параметра; тоді частка варіації у підсумковій оцінці, що описується виключеним параметром, буде віднесена на рахунок константи (збільшуючи її). Відповідно зменшиться і відсоток сукупної дисперсії, що описується регресійною моделлю (величина R2). Однак це дозволить відновити семантичну релевантність.

Ще раз підкреслимо, що зроблене зауваження є справедливим для нашого випадку (оцінки параметрів). Негативні - коефіцієнти можуть бути вірними та відображати семантичні реалії в інших випадках. Наприклад, коли зменшення прибутку респондентів призводить до збільшення частоти покупок дешевих товарів. У таблиці ви бачите, що найбільше на загальне враження пасажирів від польоту впливають два параметри: робота бортпровідників та комфортабельність салону (- коефіцієнти по 0,21). Навпаки, меншою мірою формування підсумкової оцінки сервісу на борту відбувається за рахунок враження від обслуговування спиртними напоями (0,08). При цьому два перші параметри надають майже втричі більше сильний впливна підсумкову оцінку польоту, ніж

Спиртні напої. На основі стандартизованих (3-коефіцієнтів регресії можна побудувати рейтинг впливу приватних параметрів сервісу на борту на загальне враження авіапасажирів від польоту, розділивши їх на три групи за силою впливу).

■ найбільш значущі параметри;

■ параметри, що мають середню значущість;

■ параметри, що мають низьку значущість для респондентів (рис. 4.32).

У крайньому правому стовпці містяться коефіцієнти, помножені на 100, для полегшення порівняння параметрів між собою.



Цей рейтинг також можна інтерпретувати як рейтинг значущості для респондентів різних параметрів сервісу на борту (загалом - схема вибору). Так, найбільш важливими факторамиє перші два (1-2); середню значущість для пасажирів мають такі три параметри (3-5); відносно мале значення мають останні два фактори (6-7).

Регресійний аналіз дозволяє виявити справжні, глибинні мотиви респондентів для формування загального враження про якийсь продукт. Як показує практика, такого рівня наближення не можна досягти звичайними методами - наприклад, просто запитавши респондентів: Які фактори з наведених нижче надають найбільший вплив на Ваше загальне враження від польоту літаками нашої авіакомпанії? Крім того, регресійний аналіз дозволяє досить точно оцінити, наскільки один параметр більш-менш значущий для респондентів, ніж інший, і на цій підставі класифікувати параметри на критичні, що мають середню значущість та малозначущі.

Стовпець У таблиці Coefficients містить коефіцієнти регресії (нестандартизовані). Вони служать на формування власне регресійного рівняння, яким можна розрахувати величину залежної змінної при різних значенняхнезалежних.

Спеціальний рядок Constant містить важливу інформаціюпро отриману регресійну модель: значення залежної змінної при нульових значенняхнезалежних змінних. Чим вище значення константи, тим гірше підходить вибраний список незалежних змінних для опису поведінки залежної змінної. У загальному випадку вважається, що константа не повинна бути найбільшим коефіцієнтом у регресійному рівнянні (коефіцієнт хоча б при одній зміні повинен бути більшим за константу). Однак у практиці маркетингових досліджень часто вільний член виявляється найбільше коефіцієнтів разом узятих. Це пов'язано переважно з відносно малими розмірами вибірок, із якими доводиться працювати маркетологам, і навіть з неакуратним заповненням анкет (деякі респонденти можуть оцінити будь-яким параметрам). У разі величина константи менше 1, що дуже хорошим результатом.

Отже, в результаті побудови регресійної моделі можна сформувати наступне регресійне рівняння:

СБ = 0,78 + 0,20К + 0.20Б + 0,08ПП + 0.07С + 0Д0Н + 0,08В + 0Д2П, де

■ СБ – загальна оцінка сервісу на борту;

■ К – комфортабельність салону;

■ Б - робота бортпровідників;

■ ПП – харчування під час польоту;

■ С - спиртні напої;

■ Н – дорожні набори;

■ В - відеопрограма;

■ П – преса.

Останній показник, який доцільно звертати увагу під час інтерпретації результатів регресійного аналізу, - це стандартна помилка, розраховується кожному за коефіцієнта в регресійному рівнянні (стовпець Std. Error). При 95%-ном довірчому рівнікожен коефіцієнт може відхилятися від величини на ±2 х Std. Error. Це означає, що, наприклад, коефіцієнт при параметрі Комфортабельність салону (рівний 0,202) у 95% випадків може відхилятися від даного значенняна ±2 х 0,016 чи ±0,032. Мінімальне значення коефіцієнта дорівнюватиме 0,202 - 0,032 = 0,17; а максимальне – 0,202 + 0,032 = 0,234. Таким чином, у 95% випадків коефіцієнт за параметра «комфортабельність салону» варіюється в межах від 0,17 до 0,234 (при середньому значенні 0,202). У цьому інтерпретація результатів регресійного аналізу можна вважати завершеної. У нашому випадку слід повторити всі кроки ще раз: спочатку для бізнес-, потім для економ-класу.

Тепер давайте розглянемо інший випадок, коли необхідно графічно подати залежність між двома змінними (одною залежною та однією незалежною) за допомогою регресійного аналізу. Наприклад, якщо ми приймемо підсумкову оцінку польоту авіакомпанією X в 2001 р. за залежну змінну S, а той же показник у 2000 р. - за незалежну змінну So, то для побудови рівняння тренда (або регресійного рівняння) потрібно буде визначити параметри співвідношення S, = а + b x So. Побудувавши дане рівнянняТакож можна побудувати регресійну пряму і, знаючи вихідну підсумкову оцінку польоту, спрогнозувати величину даного параметра на наступний рік.

Цю операцію слід розпочати з побудови регресійного рівняння. Для цього повторіть всі вищеописані кроки для двох змінних: залежною Підсумкова оцінка 2001 та незалежною Підсумкова оцінка 2000. Ви отримаєте коефіцієнти, за допомогою яких можна надалі будувати лінію тренда (як у SPSS, так і будь-якими іншими засобами). У нашому випадку отримане регресійне рівняння має вигляд: S(= 0,18 + 0,81 х So. Тепер побудуємо рівняння лінії тренду в SPSS).


Діалогове вікно Linear Regression має вбудований засіб для побудови графіків – кнопку Plots. Однак цей засіб, на жаль, не дозволяє на одному графіку побудувати дві змінні: S, і So - Для того, щоб побудувати тренд, необхідно використовувати меню Graphs Scatter. На екрані з'явиться діалогове вікно Scatterplot (рис. 4.32), яке слугує для вибору типу діаграми. Виберіть вигляд Simple. Максимально можлива кількість незалежних змінних, яку можна зобразити графічно, - 2. Тому при необхідності графічної побудови залежності однієї змінної (залежної) від двох незалежних (наприклад, якби у нашому розпорядженні були дані не за двома, а за трьома роками), у вікні Scatterplot слід вибрати 3-D. Схема побудови тривимірної діаграми розсіювання немає істотних відмінностей від описуваного способу побудови двомірної діаграми.

Після натискання кнопки Define на екрані з'явиться нове діалогове вікно, представлене на рис. 4.34. Помістіть у полі Y Axis залежну змінну (Підсумкова оцінка 2001), а в полі X Axis - незалежну (Підсумкова оцінка 2000). Клацніть на кнопці 0 До, що призведе до побудови діаграми розсіювання.

Для того, щоб побудувати лінію тренда, двічі клацніть мишею на отриманій діаграмі; Відкриється вікно SPSS Chart Editor. У цьому вікні виберіть пункт меню Chart Options; далі пункт Total у сфері Fit Line; клацніть на кнопці Fit Options. Відкриється діалогове вікно Fit Line, виберіть тип апроксимуючої лінії (у нашому випадку Linear regression) і пункт Display R-square in legend. Після закриття вікна SPSS Chart Editor у вікні SPSS Viewer з'явиться лінійний тренд, що апроксимує наші спостереження за методом найменших квадратів. Також на діаграмі відображатиметься величина R2, яка, як було сказано вище, означає частку сукупної варіації, що описується даною моделлю (рис. 4.35). У прикладі вона дорівнює 53 %.

Цей коефіцієнт вводиться у маркетингових дослідженнях для зручності порівняння привабливості для респондентів аналізованих продуктів/марок. В анкеті повинні бути питання типу Оцініть представлені параметри продукту/ марки X, в яких респондентам пропонується дати свої оцінки приватним параметрам продукту або марки X, скажімо, за п'ятибальною шкалою (від 1 - дуже погано до 5 - відмінно). Наприкінці списку оцінюваних приватних параметрів респонденти мають поставити підсумкову оцінку продукту/марке X. При аналізі отриманих під час опитування відповідей респондентів виходячи з оцінок респондентів формуються:

2 при високому рівніоцінки (середньозважений бал ≥ 4,5)

1 при середньому рівні оцінки (середньозважений бал ≥4,0 та< 4,5)

1 при низькому рівні оцінки (середньозважений бал ≥3,0 та< 4,0)

2 при незадовільній оцінці (середньозважений бал< 3,0)

Розрахований для кожного конкуруючого продукту/марки коефіцієнт СА показує його відносну позицію в структурі споживчих переваг. Цей інтегральний показник враховує рівень оцінок за кожним параметром, скоригований з їхньої значимість. При цьому він може змінюватися в межах від -1 (найгірша відносна позиція серед усіх продуктів/марок, що розглядаються) до 1 ( найкраще становище); 0 означає, що цей продукт/марка нічим особливим не виділяється в очах респондентів.

Ми завершуємо розгляд асоціативного аналізу. Ця група статистичних методів застосовується у вітчизняних компаніях нині досить широко (особливо це стосується перехресних розподілів). Разом з тим хотілося б підкреслити, що тільки перехресними розподілами асоціативні методи не обмежуються. Для проведення глибокого аналізу слід розширити спектр застосовуваних методик за рахунок методів, описаних у цьому розділі.


У прогнозних розрахунках щодо рівняння регресії визначається передбачуване значення як точковий прогноз при , тобто шляхом підстановки до рівняння регресії відповідного значення х.Однак точковий прогноз явно не є реальним. Тому він доповнюється розрахунком стандартної помилки. тобто, і відповідно інтервальною оцінкою прогнозного значення (у*)

Щоб зрозуміти, як будується формула для визначення величин середньоквадратичної помилки, звернімося до рівняння лінійної парної регресії:

Відомим чином знайдемо дисперсію моделі парної лінійної регресії:

(3.29)

З урахуванням виразу (3.24) та (3.25) попередньо запишемо:

Після нескладних перетворень остаточно отримаємо:

(3.30)

Звідси перейдемо до середньоквадратичної помилки моделі парної лінійної регресії:

Розглянута формула середньоквадратичної помилки передбачуваного середнього значення y при заданому значенні характеризує помилку становища лінії регресії. Величина стандартної помилки , як видно з формули, досягає мінімуму при , і зростає в міру того, як «віддаляється» від у будь-якому напрямку. Іншими словами, чим більша різниця між і x, тим більше помилка з якою передбачається середнє значення yдлязаданого значення. Очікується найкращі результати прогнозу, якщо ознака-фактор хзнаходиться в центрі області спостережень хі не можна очікувати хороших результатів прогнозу при видаленні від . Якщо ж значення виявляється за межами спостережуваних значень х,використовуються при побудові лінійної регресії, то результати прогнозу погіршуються залежно від того, наскільки відхиляється від області значень фактору, що спостерігаються x.

Для нашого прикладу становитиме:

Для прогнозованого значення 95% довірчі інтервали при заданому визначаються виразом

Для ймовірності 95% тоді26,04.

При , прогнозне значення yскладе:

яке є точковим прогнозом.

Прогноз лінії регресії в інтервалі становитиме:

Однак фактичні значення уваріюють близько середнього значення. Індивідуальні значення уможуть відхилятися від на величину випадкової помилки, дисперсія якої оцінюється як залишкова дисперсіяна один ступінь свободи . Тому передбачуваного індивідуального значення y повинна включати не лише стандартну помилку, а й випадкову помилку S.

Середня помилка прогнозованого індивідуального значення y складе:

За даними прикладу отримаємо:

Довірчі інтервали прогнозу індивідуальних значень yз ймовірністю 0,95 складуть:, або 141,57, це означає, що.

Інтервал досить широкий, насамперед, з допомогою малого обсягу спостережень.

При прогнозуванні з урахуванням рівняння регресії слід пам'ятати, що величина прогнозу залежить лише від стандартної помилки індивідуального значення у,але й від точності прогнозу значення фактора х.Його величина може задаватися на основі аналізу інших моделей виходячи з конкретної ситуації, а також аналізу динаміки даного фактора.

Розглянута формула середньої помилки індивідуального значення ознаки y може бути використана також для оцінки суттєвості відмінності прогнозованого значення виходячи з регресійної моделі та висунутої гіпотези розвитку подій.

Припустимо, що у прикладі з функцією витрат висувається припущення, що у наступного року у зв'язку з стабілізацією економіки під час випуску продукції 8 тис. од. Витрати виробництво не перевищать 250 млн крб. Чи означає це дійсно зміна знайденої закономірності чи дана величина витрат відповідає регресійній моделі?

Щоб відповісти на це питання, знайдемо точковий прогноз при х= 8, тобто.

Передбачуване значення витрат, виходячи з економічної ситуації, - 250,0. Для оцінки суттєвості відмінності цих величин визначимо середню помилку прогнозованого індивідуального значення:

Порівняємо її з величиною передбачуваного зниження витрат виробництва, тобто:

Оскільки оцінюється значимість лише зменшення витрат, використовується односторонній критерій Стьюдента. При помилці в 5% із п'ятьма ступенями свободи. Отже, передбачуване зменшення витрат істотно відрізняється від прогнозованого за моделлю при 95% рівні довіри. Однак якщо збільшити ймовірність до 99%, при помилці в 1% фактичне значення критерію виявляється нижче табличного 3,365, і розбіжність у величині витрат статистично не значимо.

Прогнозування за рівнянням регресії є підстановкою рівняння регресії відповідного значення х . Такий прогноз називається точковим.Він не є точним, тому доповнюється розрахунком стандартної помилки ; виходить інтервальна оцінкапрогнозного значення:

Перетворимо рівняння регресії:

помилка залежить від помилки та помилки коефіцієнта регресії b , тобто. .

З теорії вибірки відомо, що .

Використовуємо як оцінку s 2 залишкову дисперсію однією ступінь свободи S 2 , отримуємо: .

Помилка коефіцієнта регресії з формули (15):

Таким чином, при х=х k отримуємо:

(31)

Як видно з формули, величина досягає мінімуму при і зростає в міру віддалення в будь-якому напрямку.

Для нашого прикладу ця величина становитиме:

При , При х k = 4

Для прогнозованого значення 95% - ні довірчі інтервалипри заданому х kвизначені виразом:

тобто. при х k=4±2,57-3,34 або ±8,58. При х до=4 прогнозне значення становитиме

у p=-5,79 +36,84 · 4 = 141,57 - це точковий прогноз.

Прогноз лінії регресії лежить в інтервалі: 132,99 150,15.

Ми розглянули довірчі інтервали для середнього значення упри заданому х.Однак фактичні значення у варіюються близько середнього значення , вони можуть відхилятися на величину випадкової помилки e дисперсія якої оцінюється як залишкова дисперсія на один ступінь свободи S 2 .Тому помилка прогнозу окремого значення у повинна включати не лише стандартну помилку, а й випадкову помилку S . Таким чином, середня помилка прогнозу індивідуального значення yскладе:

(33)

Для прикладу:

Довірчий інтервал прогнозу індивідуальних значень упри х до=4 з вірністю 0,95 становитиме:. 141,57 ±2,57·8,01, або 120,98 ≤ у р ≤ 162,16.

Нехай у прикладі з функцією витрат висувається припущення, що в наступному році у зв'язку зі стабілізацією економіки витрати на виробництво 8 тис. од. продукції не перевищать 250 млн. руб. Чи означає ця зміна знайденої закономірності чи витрати відповідають регресійній моделі?

Точковий прогноз: = -5,79 + 36,84 8 = 288,93. Передбачуване значення – 250. Середня помилкапрогнозного індивідуального значення:

Порівняємо її з передбачуваним зниженням витрат виробництва, тобто. 250-288,93 = -38,93:

Оскільки оцінюється лише значення зменшення витрат, то використовується односторонній t~критерій Стьюдента. При помилці 5% з n-2=5 t табл=2,015, тому передбачуване зменшення витрат значно відрізняється від прогнозованого значення при 95 % - ном рівні довіри. Однак, якщо збільшити ймовірність до 99%, при помилці 1% фактичне значення t-Критерію виявляється нижче табличного 3,365, і відмінність у витратах статистично значимо, тобто. витрати відповідають запропонованій регресійній моделі.

Нелінійна регресія

Досі ми розглядали лише лінійнумодель регресійної залежності у від х (3). У той же час багато важливих зв'язків в економіці нелінійними.Прикладами такого роду регресійних моделей є виробничі функції (залежності між обсягом виробленої продукції та основними факторами виробництва - працею, капіталом тощо) та функції попиту (залежності між попитом на будь-який вид товарів чи послуг, з одного боку, та доходом та цінами на цей та інші товари - з іншого).

При аналізі нелінійних регресійних залежностей найбільше важливим питаннямзастосування класичного МНК є спосіб їхньої лінеаризації. У разі лінеаризації нелінійної залежності отримуємо лінійне регресійне рівняння типу (3), параметри якого оцінюються звичайним МНК, після чого можна записати вихідне нелінійне співвідношення.

Дещо особняком у цьому сенсі стоїть поліноміальна модель довільного ступеня:

до якої стандартний МНК можна використовувати без будь-якої попередньої лінеаризації.

Розглянемо зазначену процедуру стосовно параболі другого ступеня:

(35)

Така залежність доцільна у разі, якщо для деякого інтервалу значень фактора зростаюча залежність змінюється на спадну або навпаки. У цьому випадку можна визначити значення фактора, при якому досягається максимальне або мінімальне значеннярезультативної ознаки. Якщо вихідні дані не виявляють зміну спрямованості зв'язку, параметри параболи стають важко інтерпретованими, і краще краще замінити форму зв'язку іншими нелінійними моделями.

Застосування МНК для оцінки параметрів параболи другого ступеня зводиться до диференціювання суми квадратів залишків регресії по кожному з параметрів, що оцінюються, і прирівнюванню отриманих виразів нулю. Виходить система нормальних рівнянь, Число яких дорівнює числу параметрів, що оцінюються, тобто. трьом:

(36)

Вирішувати цю систему можна будь-яким способом, зокрема методом визначників.

Екстремальне значення функції спостерігається при значенні фактора, що дорівнює:

Якщо b>0, с<0, має місце максимум, тобто. залежність спочатку зростає, а потім падає. Такі залежності спостерігаються в економіці праці при вивченні заробітної платипрацівників фізичної праці, як у ролі чинника виступає вік. При b<0, с>0 парабола має мінімум, що зазвичай проявляється у питомих витратах виробництва залежно від обсягу своєї продукції.

У нелінійних залежностях, що не є класичними поліномами, обов'язково проводиться попередня лінеаризація, яка полягає в перетворенні або змінних, або параметрів моделі, або комбінації цих перетворень. Розглянемо деякі класи таких залежностей.

Залежності гіперболічного типу мають вигляд:

(37)

Прикладом такої залежності є крива Філіпса, що констатує зворотну залежність відсотка приросту заробітної плати від рівня безробіття. У цьому випадку значення параметра b буде більше за нуль. Іншим прикладом залежності (37) є криві Енгеля, що формулюють наступну закономірність: зі зростанням доходу частка доходів, що витрачаються на продовольство, зменшується, а частка доходів, що витрачаються на непродовольчі товари, зростатиме. В цьому випадку b<0 , А результативна ознака (37) показує частку витрат на непродовольчі товари.

Лінеаризація рівняння (37) зводиться до заміни фактора z=1/х , і рівняння регресії має вигляд (3), у якому замість фактора х використовуємо фактор z:

До того ж лінійному рівняннюзводиться напівлогарифмічна крива:

(39)

яка може бути використана для опису кривих Енгеля. Тут 1п(х) замінюється на z , І виходить рівняння (38).

Досить широкий клас економічних показників характеризується постійним темпом відносного приросту в часі. Цьому відповідають залежності показового (експоненційного) типу, які записуються як:

або у вигляді

Можлива така залежність:

У регресіях типу (40) - (42) застосовується той самий спосіб лінеаризації - логарифмування. Рівняння (40) наводиться до вигляду:

(43)

Заміна змінної Y= ln узводить його до лінійного вигляду:

(44)

де . Якщо Езадовольняє умовам Гаусса-Маркова, параметри рівняння (40) оцінюються МНК з рівняння (44). Рівняння (41) наводиться до вигляду:

який відрізняється від (43) тільки видом вільного члена, і лінійне рівняння виглядає так:

Y=A+bx+E(46)

де A= ln a. Параметри Аі bвиходять звичайним МНК, потім параметр а залежно (41) виходить як антилогарифм А.При логарифмуванні (42) отримуємо лінійну залежність:

Y=A+Bx+E(47)

де B=ln b, А інші позначення самі, як і вище. Тут також застосовується МНК до перетворених даних, а параметр b для (42) виходить як антилогарифм коефіцієнта Ст.

Широко поширеніу практиці соціально-економічних досліджень статечні залежності. Вони використовуються для побудови та аналізу виробничих функцій. У функціях виду:

особливо цінною є та обставина, що параметр b дорівнює коефіцієнту еластичності результативної ознаки за фактором х . Перетворюючи (48) шляхом логарифмування, отримуємо лінійну регресію:

Y=A+bX+E (49)

де Y= ln y,A= ln a, X= ln x, E = ln ε .

Ще одним видом нелінійності, що приводиться до лінійного вигляду, є зворотна залежність:

(50)

Проводячи заміну і=1/у, Отримаємо:

(51)

Нарешті, слід зазначити залежність логістичного типу:

(52)

Графіком функції (52) є так звана «крива насичення», яка має дві горизонтальні асимптоти у=0і у=1/аі точку перегину x= ln (b/a), у=1/(2а), а також точку перетину з віссю ординат у=1/(а+b):

Рівняння (52) наводиться до лінійного вигляду замінами змінних і = 1/у, z = e - x.

Будь-яке рівняння нелінійної регресії, як і лінійної залежності, доповнюється показником кореляції, який у цьому випадку називається індексом кореляції:

(53)

Тут – загальна дисперсія результативногоознаки у , залишкова дисперсія, що визначається за рівнянням нелінійної регресії. Слід звернути увагу, що різниці у відповідних сумах і беруться над перетворених, а вихідних значеннях результативного ознаки. Інакше висловлюючись, при обчисленні цих сум слід використовувати не перетворені (лінеаризовані) залежності, саме вихідні нелінійні рівняння регресії. Інакше (53) можна записати так:

(54)

Величина Rзнаходиться у межах 0 ≤ R ≤ 1 і чим ближче вона до одиниці, тим вже зв'язоканалізованих ознак, тим паче надійно знайдене рівняння регресії. При цьому індекс кореляції збігається з лінійним коефіцієнтом кореляції у разі коли перетворення змінних з метою лінеаризації рівняння регресії не проводиться з величинами результативної ознаки. Така ситуація з напівлогарифмічною і поліноміальною регресією, а також з рівносторонньою гіперболою (37). Визначивши лінійний коефіцієнт кореляції для лінеаризованих рівнянь, наприклад, на пакеті Excel за допомогою функції ЛІНІЙН, можна використовувати його і для нелінійної залежності.

Інша справа у випадку, коли перетворення проводиться також з величиною у , наприклад, взяття зворотної величини або логарифмування. Тоді значення R,обчислене тією ж функцією Лінейн, буде ставитися до лінеаризованого рівняння регресії, а не до початкового нелінійного рівняння, і величини різниць під сумами (54) будуть відноситися до перетворених величин, а не до вихідних, що не одне і те ж. При цьому, як було зазначено вище, для розрахунку Rслід скористатися виразом (54), обчисленим за вихідним нелінійним рівнянням.

Оскільки в розрахунку індексу кореляції використовується співвідношення факторної та загальної СКО, то R 2має той самий сенс, як і коефіцієнт детермінації. У спеціальних дослідженнях величину R 2для нелінійних зв'язків називають індекс детермінації.

Оцінка суттєвості індексу кореляції проводиться як і, як і оцінка надійності коефіцієнта кореляції.

Індекс детермінації використовується для перевірки суттєвості в цілому рівняння нелінійної регресії за F-критерію Фішера:

(55)

де n -число спостережень, m -число параметрів при змінних х . У всіх розглянутих нами випадках, крім поліноміальної регресії, m=1, для поліномів (34) m=k, тобто. ступеня полінома. Величина т характеризує число ступенів свободи для факторної СКО, а (п-т-1) -число ступенів свободи для залишкової СКО.

Індекс детермінації R 2 можна порівнювати з коефіцієнтом детермінації r 2 для обґрунтування можливості застосування лінійної функції. Чим більша кривизна лінії регресії, тим більша різниця між R 2 і r 2 . Близькість цих показників означає, що ускладнювати форму рівняння регресії годі було і можна використовувати лінійну функцію. Фактично, якщо величина (R 2 -r 2)не перевищує 0,1, то лінійна залежністьвважається виправданою. В іншому випадку проводиться оцінка суттєвості відмінності показників детермінації, обчислених за одними і тими ж даними, через t-Критерій Стьюдента:

Тут у знаменнику знаходиться помилка різниці (R 2 -r 2),визначається за формулою:

Якщо t >t табл (α;n-m-1),то відмінності між показниками кореляції суттєві та заміна нелінійної регресії лінійної недоцільна.

На закінчення наведемо формули розрахунку коефіцієнтів еластичності найбільш поширених рівнянь регресії.

У попередніх нотатках предметом аналізу часто ставала окрема числова змінна, наприклад, прибутковість взаємних фондів, час завантаження Web-сторінки або обсяг споживання безалкогольних напоїв. У цій і наступних нотатках ми розглянемо методи передбачення значень числової змінної залежно від значень однієї чи кількох інших числових змінних.

Матеріал буде проілюстрований наскрізним прикладом. Прогнозування обсягу продажу у магазині одягу.Мережа магазинів зниженого в ціні одягу Sunflowers протягом 25 років постійно розширювалася. Проте на даний час компанія не має систематичного підходу до вибору нових торгових точок. Місце, де компанія збирається відкрити новий магазин, визначається з урахуванням суб'єктивних міркувань. Критеріями вибору є вигідні умови оренди або подання менеджера про ідеальне розташування магазину. Уявіть, що ви - керівник відділу спеціальних проектів та планування. Вам доручили розробити стратегічний план для відкриття нових магазинів. Цей план повинен містити прогноз річного обсягу продажів у магазинах, що знову відкриваються. Ви вважаєте, що торгова площа безпосередньо пов'язана з обсягом виручки і хочете врахувати цей факт у процесі прийняття рішення. Як розробити статистичну модель, яка дозволяє прогнозувати річний обсяг продажу на основі розміру нового магазину?

Як правило, для прогнозування значень змінної використовується регресійний аналіз. Його мета - розробити статистичну модель, що дозволяє передбачати значення залежної змінної, або відгуку, за значеннями принаймні однієї незалежної або пояснюючої змінної. У цьому замітці ми розглянемо просту лінійну регресію - статистичний метод, що дозволяє передбачати значення залежної змінної Yза значеннями незалежної змінної X. У наступних нотатках буде описано модель множинної регресії, призначена для передбачення значень незалежної змінної Yза значеннями кількох залежних змінних ( Х 1 , Х 2 , …, X k).

Завантажити нотатку у форматі або , приклади у форматі

Види регресійних моделей

де ρ 1 - Коефіцієнт автокореляції; якщо ρ 1 = 0 (немає автокореляції), D≈ 2; якщо ρ 1 ≈ 1 (позитивна автокореляція), D≈ 0; якщо ρ 1 = -1 (негативна автокореляція), D ≈ 4.

На практиці застосування критерію Дурбіна-Уотсона ґрунтується на порівнянні величини Dз критичними теоретичними значеннями d Lі d Uдля заданої кількості спостережень n, числа незалежних змінних моделі k(для простої лінійної регресії k= 1) та рівня значущості α. Якщо D< d L , гіпотеза про незалежність випадкових відхилень відкидається (отже, є позитивна автокореляція); якщо D > d U, гіпотеза не відкидається (тобто автокореляція відсутня); якщо d L< D < d U немає достатніх підстав для прийняття рішення. Коли розрахункове значення Dперевищує 2, то з d Lі d Uпорівнюється не сам коефіцієнт D, а вираз (4 – D).

Для обчислення статистики Дурбіна-Уотсона в Excel звернемося до нижньої таблиці на рис. 14 Виведення залишку. Чисельник у виразі (10) обчислюється за допомогою функції СУММКВРАЗН(масив1;масив2), а знаменник СУММКВ(масив) (рис. 16).

Рис. 16. Формули розрахунку статистики Дурбіна-Уотсона

У нашому прикладі D= 0,883. Основне питання полягає в наступному - яке значення статистики Дурбіна-Уотсона слід вважати досить малим, щоб зробити висновок про існування позитивної автокореляції? Необхідно співвіднести значення D з критичними значеннями ( d Lі d U), що залежать від числа спостережень nта рівня значущості α (рис. 17).

Рис. 17. Критичні значення статистики Дурбіна-Уотсона (фрагмент таблиці)

Таким чином, у задачі про обсяг продажу в магазині, що доставляє товари додому, існують одна незалежна змінна ( k= 1), 15 спостережень ( n= 15) та рівень значущості α = 0,05. Отже, d L= 1,08 та dU= 1,36. Оскільки D = 0,883 < d L= 1,08, між залишками існує позитивна автокореляція, метод найменших квадратів застосовувати не можна.

Перевірка гіпотез про нахил та коефіцієнт кореляції

Вище регресія застосовувалась виключно для прогнозування. Для визначення коефіцієнтів регресії та передбачення значення змінної Yпри заданій величинізмінної Xвикористовувався метод найменших квадратів. Крім того, ми розглянули середньоквадратичну помилку оцінки та коефіцієнт змішаної кореляції. Якщо аналіз залишків підтверджує, що умови застосування методу найменших квадратів не порушуються, і модель простої лінійної регресії є адекватною, на основі вибіркових даних можна стверджувати, що між змінними в генеральної сукупностіІснує лінійна залежність.

Застосуванняt -Критерію для нахилу.Перевіряючи, чи дорівнює нахил генеральної сукупності β 1 нулю, можна визначити, чи існує статистично значуща залежність між змінними Xі Y. Якщо ця гіпотеза відхиляється, можна стверджувати, що між змінними Xі YІснує лінійна залежність. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = 0 (немає лінійної залежності), Н1: β 1 ≠ 0 (є лінійна залежність). За визначенням t-статистика дорівнює різниці між вибірковим нахилом та гіпотетичним значенням нахилу генеральної сукупності, поділеної на середньоквадратичну помилку оцінки нахилу:

(11) t = (b 1 β 1 ) / S b 1

де b 1 – нахил прямої регресії за вибірковими даними, β1 – гіпотетичний нахил прямої генеральної сукупності, , а тестова статистика tмає t-розподіл з n – 2ступенями свободи.

Перевіримо, чи існує статистично значуща залежність між розміром магазину та річним обсягом продажу при α = 0,05. t-критерій виводиться поряд з іншими параметрами під час використання Пакет аналізу(опція Регресія). Повністю результати роботи Пакету аналізу наведено на рис. 4 фрагмент, що відноситься до t-статистики - на рис. 18.

Рис. 18. Результати застосування t

Оскільки кількість магазинів n= 14 (див. рис.3), критичне значення t-Статистики при рівні значимості α = 0,05 можна знайти за формулою: t L=СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, де 0,025 – половина рівня значимості, а 12 = n – 2; t U=СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Оскільки t-статистика = 10,64> t U= 2,1788 (рис. 19), нульова гіпотеза Н 0відхиляється. З іншого боку, р-значення для Х= 10,6411, що обчислюється за формулою =1-СТЬЮДЕНТ.РАСП(D3;12;ІСТИНА), приблизно дорівнює нулю, тому гіпотеза Н 0знову відхиляється. Той факт, що рзначення майже дорівнює нулю, означає, що якби між розмірами магазинів і річним обсягом продажів не існувало реальної лінійної залежності, виявити її за допомогою лінійної регресії було б практично неможливо. Отже, між середнім річним обсягом продажів у магазинах та їх розміром існує статистично значуща лінійна залежність.

Рис. 19. Перевірка гіпотези про нахил генеральної сукупності при рівні значимості, що дорівнює 0,05, та 12 ступенях свободи

ЗастосуванняF -Критерію для нахилу.Альтернативним підходом до перевірки гіпотез про нахил простої лінійної регресії є використання F-Критерія. Нагадаємо, що F-Критерій застосовується для перевірки відносин між двома дисперсіями (докладніше див.). Під час перевірки гіпотези про нахилі мірою випадкових помилокє дисперсія помилки (сума квадратів помилок, поділена на кількість ступенів свободи), тому F-Критерій використовує відношення дисперсії, що пояснюється регресією (тобто величини SSR, поділеної на кількість незалежних змінних k), до дисперсії помилок ( MSE = S YX 2 ).

За визначенням F-статистика дорівнює середньому квадрату відхилень, обумовлених регресією (MSR), поділеному на дисперсію помилки (MSE): F = MSR/ MSE, де MSR =SSR / k, MSE =SSE/(n- k - 1), k– кількість незалежних змінних у регресійній моделі. Тестова статистика Fмає F-розподіл з kі n– k – 1ступенями свободи.

При заданому рівні значення α вирішальне правилоформулюється так: якщо F > FUнульова гіпотеза відхиляється; в іншому випадку вона не відхиляється. Результати, оформлені як зведеної таблиці дисперсійного аналізу, наведено на рис. 20.

Рис. 20. Таблиця дисперсійного аналізу для перевірки гіпотези про статистичної значимостікоефіцієнта регресії

Аналогічно t-критерію F-критерій виводиться в таблицю під час використання Пакет аналізу(опція Регресія). Цілком результати роботи Пакет аналізунаведено на рис. 4, фрагмент, що відноситься до F-Статистиці - на рис. 21.

Рис. 21. Результати застосування F-критерію, отримані за допомогою Пакету аналізу Excel

F-статистика дорівнює 113,23, а р-значення близько до нуля (комірка ЗначимістьF). Якщо рівень значущості α дорівнює 0,05, визначити критичне значення F-розподілу з одним і 12 ступенями свободи можна за формулою F U= F.ОБР (1-0,05; 1; 12) = 4,7472 (рис. 22). Оскільки F = 113,23 > F U= 4,7472, причому р-значення близько до 0< 0,05, нулевая гипотеза Н 0відхиляється, тобто. Обсяг магазину був із його річним обсягом продажів.

Рис. 22. Перевірка гіпотези про нахилі генеральної сукупності при рівні значимості, що дорівнює 0,05, з одним і 12 ступенями свободи

Довірчий інтервал, що містить нахил β 1 .Для перевірки гіпотези про існування лінійної залежності між змінними можна побудувати довірчий інтервал, що містить нахил 1 і переконатися, що гіпотетичне значення 1 = 0 належить цьому інтервалу. Центром довірчого інтервалу, що містить нахил β 1 , є вибірковий нахил b 1 , а його межами - величини b 1 ±t n –2 S b 1

Як показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Отже, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, або + 1,328 ≤ β 1 ≤ +2,012. Таким чином, нахил генеральної сукупності з ймовірністю 0,95 лежить в інтервалі від +1,328 до +2,012 (тобто від 1328000 до 2012000 дол.). Оскільки ці величини більші за нуль, між річним обсягом продажів і площею магазину існує статистично значуща лінійна залежність. Якби довірчий інтервал містив нуль, між змінними не було б залежності. Крім того, довірчий інтервал означає, що кожне збільшення площі магазину на 1000 кв. футів призводить до збільшення середнього обсягу продажів на величину від 1328000 до 2012000 доларів.

Використанняt -Критерію для коефіцієнта кореляції.було введено коефіцієнт кореляції r, що є мірою залежності між двома числовими змінними. З його допомогою можна встановити, чи існує між двома змінними статистично значущий зв'язок. Позначимо коефіцієнт кореляції між генеральними сукупностями обох змінних символом ρ. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: ρ = 0 (немає кореляції), Н 1: ρ ≠ 0 (є кореляція). Перевірка існування кореляції:

де r = + , якщо b 1 > 0, r = – , якщо b 1 < 0. Тестовая статистика tмає t-розподіл з n – 2ступенями свободи.

У задачі про мережу магазинів Sunflowers r 2= 0,904, а b 1- +1670 (див. рис. 4). Оскільки b 1> 0, коефіцієнт кореляції між обсягом річних продажів та розміром магазину дорівнює r= +√0,904 = +0,951. Перевіримо нульову гіпотезу, яка стверджує, що між цими змінними немає кореляції, використовуючи t-Статистику:

При рівні значимості α = 0,05 нульову гіпотезу слід відхилити, оскільки t= 10,64> 2,1788. Таким чином, можна стверджувати, що між обсягом річних продажів та розміром магазину існує статистично значущий зв'язок.

При обговоренні висновків, що стосуються нахилу генеральної сукупності, довірчі інтервали та критерії перевірки гіпотез є взаємозамінними інструментами. Проте обчислення довірчого інтервалу, що містить коефіцієнт кореляції, виявляється складнішою справою, оскільки вид вибіркового розподілу статистики. rзалежить від справжнього коефіцієнта кореляції.

Оцінка математичного очікування та передбачення індивідуальних значень

У цьому розділі розглядаються методи оцінки математичного очікування відгуку Yта передбачення індивідуальних значень Yпри заданих значеннях змінної X.

Побудова довірчого інтервалу.У прикладі 2 (див. вище розділ Метод найменших квадратів) регресійне рівняння дозволило передбачити значення змінної Y X. У задачі про вибір місця для торгової точки середній річний обсяг продажу магазині площею 4000 кв. футів дорівнював 7,644 млн. дол. Однак ця оцінка математичного очікування генеральної сукупності є точковою. для оцінки математичного очікування генеральної сукупності було запропоновано концепцію довірчого інтервалу. Аналогічно можна запровадити поняття довірчого інтервалу для математичного очікування відгукупри заданому значенні змінної X:

де , = b 0 + b 1 X i- Передбачене значення змінне Yпри X = X i, S YX- Середньоквадратична помилка, n- Обсяг вибірки, Xi- задане значення змінної X, µ Y|X = Xiматематичне очікуваннязмінної Yпри Х = Х i, SSX =

Аналіз формули (13) показує, що ширина довірчого інтервалу залежить від кількох факторів. При заданому рівні значущості зростання амплітуди коливань навколо лінії регресії, виміряне за допомогою середньоквадратичної помилки, призводить до збільшення ширини інтервалу. З іншого боку, як і слід було очікувати, збільшення обсягу вибірки супроводжується звуженням інтервалу. Крім того, ширина інтервалу змінюється в залежності від значень Xi. Якщо значення змінної Yпередбачається для величин Xблизьких до середнього значення , Довірчий інтервал виявляється вже, ніж при прогнозуванні відгуку для значень, далеких від середнього.

Припустимо, що, вибираючи місце для магазину, ми хочемо побудувати 95% довірчий інтервал для середнього річного обсягу продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів:

Отже, середній річний обсяг продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів, з 95%-ною ймовірністю лежить в інтервалі від 6,971 до 8,317 млн. дол.

Обчислення довірчого інтервалу для передбаченого значення.Крім довірчого інтервалу для математичного очікування відгуку при заданому значенні змінної Xчасто необхідно знати довірчий інтервал для передбаченого значення. Незважаючи на те, що формула для обчислення такого довірчого інтервалу дуже схожа на формулу (13), цей інтервал містить передбачене значення, а не оцінку параметра. Інтервал для передбаченого відгуку YX = Xiпри конкретному значенні змінної Xiвизначається за формулою:

Припустимо, що, вибираючи місце для торгової точки, ми хочемо побудувати 95% довірчий інтервал для передбаченого річного обсягу продажів у магазині, площа якого дорівнює 4000 кв. футів:

Отже, передбачений річний обсяг продажів у магазині, площа якого дорівнює 4000 кв. футів, з 95%-ной ймовірністю лежить в інтервалі від 5,433 до 9,854 млн. дол. Як бачимо, довірчий інтервал для передбаченого значення відгуку набагато ширший, ніж довірчий інтервал для його математичного очікування. Це тим, що мінливість при прогнозуванні індивідуальних значень набагато більше, ніж за оцінці математичного очікування.

Підводні камені та етичні проблеми, пов'язані із застосуванням регресії

Проблеми, пов'язані з регресійним аналізом:

  • Ігнорування умов застосування методу найменших квадратів.
  • Помилкова оцінка умов застосування методу найменших квадратів.
  • Неправильний вибір альтернативних методів у разі порушення умов застосування методу найменших квадратів.
  • Застосування регресійного аналізу без глибоких знань про предмет дослідження.
  • Екстраполяція регресії за межі діапазону зміни змінної, що пояснює.
  • Плутанина між статистичною та причинно-наслідковою залежностями.

Широке розповсюдження електронних таблицьі програмного забезпеченнядля статистичних розрахунків ліквідувало обчислювальні проблеми, що перешкоджали застосуванню регресійного аналізу. Однак це призвело до того, що регресійний аналіз стали застосовувати користувачі, які не мають достатньої кваліфікації та знань. Звідки користувачам знати про альтернативні методи, якщо багато хто з них взагалі не має жодного поняття про умови застосування методу найменших квадратів і не вміє перевіряти їх виконання?

Дослідник не повинен захоплюватися перемелюванням чисел - обчисленням зсуву, нахилу та коефіцієнта змішаної кореляції. Йому потрібні глибші знання. Проілюструємо це класичним прикладом, взятий з підручників. Анскомб показав, що це чотири набору даних, наведених на рис. 23, мають одні й самі параметри регресії (рис. 24).

Рис. 23. Чотири набори штучних даних

Рис. 24. Регресійний аналіз чотирьох штучних наборів даних; виконаний за допомогою Пакет аналізу(Клікніть на малюнку, щоб збільшити зображення)

Отже, з погляду регресійного аналізу, всі ці набори даних абсолютно ідентичні. Якби аналіз був на цьому закінчений, ми втратили б багато корисної інформації. Про це свідчать діаграми розкиду (рис. 25) та графіки залишків (рис. 26), побудовані для цих наборів даних.

Рис. 25. Діаграми розкиду для чотирьох наборів даних

Діаграми розкиду та графіки залишків свідчать про те, що ці дані відрізняються одна від одної. Єдиний набір, розподілений уздовж прямої лінії, - набір А. Графік залишків, обчислених за набором А, немає закономірності. Цього не можна сказати про набори Б, В та Г. Графік розкиду, побудований за набором Б, демонструє яскраво виражену квадратичну модель. Цей висновок підтверджується графіком залишків, які мають параболічну форму. Діаграма розкиду та графік залишків показують, що набір даних містить викид. У цій ситуації необхідно виключити викид із набору даних та повторити аналіз. Метод, що дозволяє виявляти та виключати викиди зі спостережень, називається аналізом впливу. Після виключення викиду результат повторної оцінки моделі може бути зовсім іншим. Діаграма розкиду, побудована за даними набору Р, ілюструє незвичайну ситуацію, у якій емпірична модель значно залежить від окремого відгуку ( Х 8 = 19, Y 8 = 12,5). Такі регресійні моделі необхідно обчислювати особливо ретельно. Отже, графіки розкиду та залишків є вкрай необхідним інструментом регресійного аналізу та мають бути його невід'ємною частиною. Без них регресійний аналіз не заслуговує на довіру.

Рис. 26. Графіки залишків для чотирьох наборів даних

Як уникнути підводного каміння при регресійному аналізі:

  • Аналіз можливого взаємозв'язку між змінними Xі Yзавжди починайте з побудови діаграми розкиду.
  • Перш ніж інтерпретувати результати регресійного аналізу, перевіряйте умови його застосування.
  • Побудуйте графік залежності залишків від незалежної змінної. Це дозволить визначити, наскільки емпірична модель відповідає результатам спостереження, та виявити порушення сталості дисперсії.
  • Для перевірки припущення про нормальному розподіліпомилок використовуйте гістограми, діаграми «ствол та листя», блокові діаграми та графіки нормального розподілу.
  • Якщо умови застосування методу найменших квадратів не виконуються, використовуйте альтернативні методи (наприклад, моделі квадратичної або множинної регресії).
  • Якщо умови застосування методу найменших квадратів виконуються, необхідно перевірити гіпотезу про статистичну значущість коефіцієнтів регресії та побудувати довірчі інтервали, що містять математичне очікування та передбачене значення відгуку.
  • Уникайте передбачати значення залежної змінної за межами діапазону зміни незалежної змінної.
  • Майте на увазі, що статистичні залежностіне завжди є причинно-наслідковими. Пам'ятайте, що кореляція між змінними не означає наявності причинно-наслідкової залежності між ними.

РезюмеЯк показано на структурній схемі (рис. 27), у замітці описані модель простої лінійної регресії, умови її застосування та способи перевірки цих умов. Розглянуто t-Критерій для перевірки статистичної значущості нахилу регресії Для передбачення значень залежною змінною використано регресійну модель. Розглянуто приклад, пов'язаний із вибором місця для торгової точки, в якому досліджується залежність річного обсягу продажу від площі магазину. Отримана інформація дозволяє точніше вибрати місце для магазину та передбачити його річний обсяг продажу. У наступних нотатках буде продовжено обговорення регресійного аналізу, а також розглянуто моделі множинної регресії.

Рис. 27. Структурна схеманотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 792–872

Якщо залежна змінна є категорійною, необхідно застосовувати логістичну регресію.

Точковий прогнозполягає в отриманні прогнозного значення уp, яке визначається шляхом підстановки рівняння регресії відповідного (прогнозного) значення xp:

уp = a + b * xp

Інтервальний прогнозполягає в побудові довірчого інтервалу прогнозу, тобто нижньої та верхньої меж уpmin, уpmaxінтервалу, що містить точну величину для прогнозного значення yp (ypmin< yp < ypmin ) із заданою ймовірністю.

При побудові довірчого інтервалу прогнозу використовується стандартна помилка прогнозу :

Де

Будується довірчий інтервал прогнозу:

Множинний регресійний аналіз

(слайд 1)Множинна регресія застосовується у ситуаціях, коли з безлічі факторів, що впливають на результативну ознаку, не можна виділити один домінуючий фактор і необхідно враховувати вплив кількох факторів. Наприклад, обсяг випуску продукції визначається величиною основних та оборотних коштів, чисельністю персоналу, рівнем менеджменту і т. д., рівень попиту залежить не тільки від ціни, а й від наявних у населення коштів.

Основна мета множинної регресії - побудувати модель з декількома факторами і визначити при цьому вплив кожного фактора окремо, а також їх спільний вплив на показник, що вивчається.

Таким чином, множинна регресія – це рівняння зв'язку з кількома незалежними змінними:

(слайд 2)Побудова рівняння множинної регресії

1. Постановка задачі

За наявними даними nспостережень (табл. 3.1) за спільною зміною p+1 параметра y та xjі (( yi, xj, i); j=1, 2, ..., p; i=1, 2, ..., n) необхідно визначити аналітичну залежність ŷ = f(x1,x2,...,xp), що найкраще описує дані спостережень.

Таблиця 3.1

Дані спостережень

x11

х12

х1n

x2 n

Кожен рядок таблиці є результатом одного спостереження. Спостереження розрізняються умовами їхнього проведення.

Питання, яку залежність слід вважати найкращою, вирішується з урахуванням будь-якого критерію. Як такий критерій зазвичай використовується мінімум суми квадратів відхилень розрахункових значень результативного показника ŷiвід значень, що спостерігаються yi:

2. Специфікація моделі

(Слайд 3)Специфікація моделі включає рішення двох завдань:

- Відбір факторів, що підлягають включенню в модель;

- Вибір форми рівняння регресії.

2.1. Відбір факторів при побудові множинної регресії

Включення в рівняння множинної регресії того чи іншого набору факторів пов'язано насамперед з уявленнями дослідника про природу взаємозв'язку показника, що моделюється, з іншими економічними явищами.

До факторів, що включаються до моделі, пред'являються такі вимоги:

1. Фактори мають бути кількісно вимірні.Включення фактора в модель має призводити до суттєвого збільшення частки поясненої частини у загальній варіації залежної змінної. Оскільки ця величина характеризується коефіцієнтом детермінації, Включення нового фактора в модель має призводити до помітної зміни коефіцієнта. Якщо цього не відбувається, то фактор, що включається в аналіз, не покращує модель і є зайвим.

Наприклад, якщо для регресії, що включає 5 факторів, коефіцієнт детермінації становив 0,85 і включення шостого фактора дало коефіцієнт детермінації 0,86, то навряд чи доцільно доповнювати модель цим фактором.

Якщо необхідно включити в модель якісний фактор, що не має кількісної оцінки, потрібно надати йому кількісну визначеність. У цьому випадку модель включається відповідна йому «фіктивна» зміннащо має кінцеву кількість формально чисельних значень, що відповідають градаціям якісного фактора (бал, ранг).

Наприклад, якщо потрібно врахувати вплив рівня освіти (на розмір заробітної плати), то до рівняння регресії можна включити змінну, яка приймає значення: 0 – при початковій освіті 1 – при середньому, 2 – при вищому.

Незважаючи на те, що теоретично регресійна модель дозволяє врахувати будь-яку кількість факторів, на практиці цього немає необхідності, т.к. невиправдане їх збільшення призводить до труднощів в інтерпретації моделі та зниження достовірності результатів.

2. Фактори не повинні бути взаємно корельованіі, тим більше, перебувати у точному функціональному зв'язку. Наявність високого ступеня корелювання між факторами може призвести до нестійкості та ненадійності оцінок коефіцієнтів регресії, а також до неможливості виділити ізольований вплив факторів на результативний показник. В результаті параметри регресії виявляються неінтерпретованими.

приклад. Розглянемо регресію собівартості одиниці виробленої продукції ( у) від заробітної плати працівника ( х) та продуктивності праці за годину ( z).

Коефіцієнт регресії при змінній zпоказує, що зі зростанням продуктивності праці на 1 од-цу на годину собівартість одиниці виробленої продукції знижується в середньому на 10 руб. за постійного рівня оплати праці.

А параметр при хне можна інтерпретувати як зниження собівартості одиниці виробленої продукції з допомогою зростання зарплати. Негативне значення коефіцієнта регресії в даному випадку зумовлене високою кореляцією між хі z (0,95).

(слайд 4)Вважається, що дві змінні явно колінеарні , тобто. знаходяться між собою в лінійній залежності, якщо коефіцієнт інтеркореляції (кореляції між двома пояснювальними змінними) ≥ 0,7. Якщо фактори явно колінеарні, то вони дублюють один одного і один із них рекомендується виключити з рівняння. Перевага при цьому надається не тому фактору, який більш тісно пов'язаний з результатом, а тому, що за досить тісного зв'язку з результатом має найменшу тісноту зв'язку з іншими факторами.

У цьому вся вимогі проявляється специфіка множинної регресії як методу дослідження комплексного впливу чинників за умов їх незалежності друг від друга.

Поряд з парною коллінеарністю може мати місце лінійна залежність між більш ніж двома змінними – мультиколінеарність , тобто. сукупне вплив чинників друг на друга.

Наявність мультиколлінеарності факторів може означати, що деякі фактори завжди діятимуть в унісон. В результаті варіація у вихідних даних перестане бути повністю незалежною, що не дозволить оцінити вплив кожного фактора окремо. Чим сильніша мультиколлінеарність факторів, тим менш надійна оцінка розподілу суми поясненої варіації за окремими факторами за допомогою МНК.

(слайд 5)Включення в модель мультиколінеарних факторів небажане за наступними причин:

    утруднюється інтерпретація параметрів множинної регресії; параметри лінійної регресії втрачають економічний зміст;

    оцінки параметрів не надійні, мають великі стандартні помилки та змінюються зі зміною кількості спостережень (не тільки за величиною, а й за знаком), що робить модель непридатною для аналізу та прогнозування.

(слайд 6)Для оцінки мультиколінеарності використовується визначник матриці парних коефіцієнтів інтеркореляції :

(!) Якщо фактори не корелюють між собою, то матриця коефіцієнтів інтеркореляції є одиничною, оскільки в цьому випадку всі недіагональні елементи дорівнюють 0. Наприклад, для рівняння з трьома змінними матриця коефіцієнтів інтеркореляції мала б визначник, що дорівнює 1, оскільки
і
.

(Слайд 7)

(!) Якщо між факторами існує повна лінійна залежністьі всі коефіцієнти кореляції дорівнюють 1, то визначник такої матриці дорівнює 0 (Якщо два рядки матриці збігаються, то її визначник дорівнює нулю).

Чим ближче до 0визначник матриці коефіцієнтів інтеркореляції, тим більше мультиколлінеарність і ненадійніше результати множинної регресії.

Чим ближче до 1визначник матриці коефіцієнтів інтеркореляції, тим менше мультиколінеарних факторів.

(слайд 8)Способи подолання мультиколінеарності факторів :

1) виключення з моделі одного або кількох факторів;

2) перехід до сполучених рівнянь регресії, тобто. до рівнянь, які відбивають як вплив чинників, а й їх взаємодія. Наприклад, якщо
, можна побудувати наступне суміщене рівняння:;

3) перехід до рівнянь наведеної форми (у рівняння регресії підставляється аналізований чинник, виражений з іншого рівняння).

(слайд 9)2.2. Вибір форми рівняння регресії

Розрізняють такі види рівнянь множинної регресії:

    лінійні,

    нелінійні, що зводяться до лінійних,

    нелінійні, що не зводяться до лінійних (внутрішньо нелінійні).

У перших двох випадках з метою оцінки параметрів моделі застосовуються методи класичного лінійного регресійного аналізу. У разі внутрішньо нелінійних рівнянь з метою оцінки параметрів застосовуються методи нелінійної оптимізації.

Основна вимога, що висувається до рівнянь регресії, полягає в наявності наочної економічної інтерпретації моделі та її параметрів. Виходячи з цих міркувань, найчастіше використовуються лінійна та статечна залежності.

Лінійна множинна регресія має вигляд:

Параметри biпри факторах хіназиваються коефіцієнтами «чистої» регресії . Вони показують, наскільки одиниць у середньому зміниться результативний ознака з допомогою зміни відповідного чинника на одиницю при незміненому значенні інших чинників, закріплених середньому рівні.

(слайд 10)Наприклад, залежність попиту товар (Qd) від ціни (P) і доходу (I) характеризується наступним рівнянням:

Qd = 2,5 – 0,12P + 0,23 I.

Коефіцієнти даного рівняння говорять про те, що при збільшенні ціни на одиницю попит зменшиться в середньому на 0,12 одиниць, а при збільшенні доходу на одиницю попит зросте в середньому 0,23 одиниці.

Параметр ане завжди може бути змістовно проінтерпретовано.

Ступінна множинна регресія має вигляд:

Параметри bj(ступеня факторів хі) є коефіцієнтами еластичності. Вони показують, скільки % у середньому зміниться результативний ознака з допомогою зміни відповідного чинника на 1% при незміненому значенні інших чинників.

Найбільш широке застосування цей вид рівняння регресії отримав у виробничих функціях, а також при дослідженні попиту та споживання.

Наприклад, залежність випуску продукції Y від витрат капіталу K та праці L:
свідчить, що збільшення витрат капіталу K на 1% при постійних витратах праці викликає збільшення випуску продукції Y на 0,23%. Збільшення витрат праці L на 1% при постійних витратах капіталу K викликає збільшення випуску продукції Y на 0,81%.

Можливі й інші лінеаризовані функції для побудови рівняння множинної регресії:


Чим складніша функція, тим менш інтерпретовані її параметри. Крім того, необхідно пам'ятати про співвідношення між кількістю спостережень та кількістю факторів у моделі. Так, для аналізу трифакторної моделі має бути проведено не менше 21 спостереження.

(слайд 11)3. Оцінка параметрів моделі

Параметри рівняння множинної регресії оцінюються, як і парної регресії, методом найменших квадратів, згідно з яким слід вибирати такі значення параметрів аі bi, при яких сума квадратів відхилень фактичних значень результативної ознаки yiвід теоретичних значень ŷ мінімальна, тобто:

Якщо , тоді Sє функцією невідомих параметрів a, bi:

Щоб знайти мінімум функції, потрібно знайти похідні по кожному з параметрів і прирівняти їх до 0:

Звідси отримуємо систему рівнянь:

(слайд 12)Її рішення може бути здійснене методом визначників:

,

де - Визначник системи;

a, ∆ b1, ∆ bp– приватні визначники ( j).

-визначник системи,

j– приватні визначники, які виходять з основного визначника шляхом заміни j-го стовпця на стовпець вільних членів .

При використанні цього методу можливе виникнення наступних ситуацій:

1) якщо основний визначник системи Δ дорівнює нулю і всі визначники Δjтакож дорівнюють нулю, то дана системамає безліч рішень;

2) якщо основний визначник системи Δ дорівнює нулю і хоча б один із визначників Δjтакож дорівнює нулю, то система рішень немає.

(слайд 13)Крім класичного МНК визначення невідомих параметрів лінійної моделі множинної регресії використовується метод оцінки параметрів через β -коефіцієнти - Стандартизовані коефіцієнти регресії.

Побудова моделі множинної регресії у стандартизованому, чи нормованому, масштабі означає, що це змінні, включені у модель регресії, стандартизуються з допомогою спеціальних формул.

У рівняння регресії у стандартизованому масштабі:

де
,
- Стандартизовані змінні;

- Стандартизовані коефіцієнти регресії.

Тобто. за допомогою процесу стандартизації точкою відліку для кожної нормованої змінної встановлюється її середнє значення вибіркової сукупності. При цьому як одиниця виміру стандартизованої змінної приймається її середньоквадратичне відхилення σ .

β -Коефіцієнти показують, на скільки сигм (середніх квадратичних відхилень) зміниться в середньому результат за рахунок зміни відповідного фактора xiодну сигму при постійному середньому рівні інших чинників.

Стандартизовані коефіцієнти регресії βiможна порівняти між собою, що дозволяє ранжувати фактори за силою їхнього впливу на результат. Більший відносний вплив на зміну результативної змінної yнадає той фактор, якому відповідає більше за модулем значення коефіцієнта βi. В цьомуосновна перевага стандартизованих коефіцієнтів регресії , На відміну від коефіцієнтів «чистої» регресії, які не можна порівняти між собою.

(слайд 14)Зв'язок коефіцієнтів «чистої» регресії biз коефіцієнтами βiописується співвідношенням:

, або

Параметр aвизначається як .

Коефіцієнти β визначаються за допомогою МНК з наступної системирівнянь методом визначників:

Для оцінки параметрів нелінійнихрівнянь множинної регресії попередньо здійснюється перетворення останніх у лінійну форму (за допомогою заміни змінних) та МНК застосовується для знаходження параметрів лінійного рівняння множинної регресії у перетворених змінних. В разі внутрішньо нелінійнихзалежностей з метою оцінки параметрів доводиться застосовувати методи нелінійної оптимізації.

(слайд 1)4. Перевірка якості рівняння регресії

Практична значущість рівняння множинної регресії оцінюється з допомогою показника множинної кореляції та її квадрата – коефіцієнта детермінації.

Показник множинної кореляції характеризує тісноту зв'язку аналізованого набору чинників з досліджуваним ознакою, тобто. оцінює тісноту спільного впливу чинників результат.

Незалежно від форми зв'язку показник множинної кореляціїрозраховується за формулою:

Коефіцієнт множинної кореляції набуває значення в діапазоні 0 ≤ R ≤ 1. Чим ближче він до 1, тим тісніше зв'язок результативної ознаки з усім набором досліджуваних факторів.

При лінійній залежності ознак формулу індексу множинної кореляції можна записати у вигляді:

,

де - Стандартизовані коефіцієнти регресії,

- Парні коефіцієнти кореляції результату з кожним фактором.

Ця формула отримала назву лінійного коефіцієнта множинної кореляції, або сукупного коефіцієнта кореляції.

Індекс детермінації для нелінійних за параметрами функцій прийнято називати «квазі-
».
Для його визначення за функціями, що використовують логарифмічні перетворення (статечна, експонента), необхідно спочатку знайти теоретичні значення ln y, потім трансформувати їх через антилогарифми (антилогарифм ln y = y) і далі визначити індекс детермінації як «квазі-
" за формулою:

.

Величина «квазі-
» не збігатиметься з сукупним коефіцієнтом кореляції, який може бути розрахований для лінійного в логарифмах рівняння множинної регресії, тому що в останньому розкладається на факторну і залишкову сумуквадратів не
, а
.

(слайд 2)Використання коефіцієнта множинної детермінації
для оцінки якості моделі має той недолік, що включення в модель нового фактора (навіть несуттєвого) автоматично збільшує величину
.
Тому при велику кількістьфакторів краще використовувати так званий скоригований (покращений) коефіцієнт множинної детермінації
, Який визначається співвідношенням:

де n- Число спостережень,

m- Число параметрів при змінних х(Чим більша величина m, тим сильніше відмінності між к-том множ. детермінації
та скоригованим до-том
).

При заданому обсязі спостережень та за інших рівних умов зі збільшенням числа незалежних змінних (параметрів) скоригований к-т множ. детермінації зменшується. Його величина може стати і негативною при слабких зв'язкахрезультату із факторами. При невеликій кількості спостережень некоригована величина до-та має тенденцію переоцінювати частку варіації результативної ознаки, пов'язану із впливом факторів, включених до регресійної моделі. Чим більший обсяг сукупності, за якою обчислена регресія, тим менше різняться
і
.

Зазначимо, що низьке значення коефіцієнта множинної кореляції та коефіцієнта множинної детермінації може бути зумовлене наступними причинами:

– до регресійної моделі не включені суттєві фактори;

– неправильно вибрано форму аналітичної залежності, яка не відображає реальні співвідношення між змінними, включеними в модель.

(Слайд 3)Значимість рівняння множинної регресії в цілому оцінюється за допомогою F - критерію Фішера :

Висувна «нульова» гіпотеза H0 про статистичну незначущість рівняння регресії відкидається при виконанні умови F> Fкрит, де Fкрит визначається за таблицями F-критерія Фішера за двома ступенями свободи k1 = m, k2= n-m- 1 та заданого рівня значущості α.

Значимість однієї й тієї ж чинника то, можливо різною залежно від послідовності введення їх у модель.

(слайд 4)Мірою для оцінки включення фактора в модель служить приватний F -Критерій (Оцінює статистичну значущість присутності кожного з факторів у рівнянні):

,

де
- Коефіцієнт множ. детермінації для моделі з повним

набором факторів;

- Той самий показник, але без включення в модель фактора х1;

n – кількість спостережень;

m – число параметрів за змінних х.

Якщо фактичне значення F перевищує табличне, то додаткове включення до моделі фактора xiстатистично виправдано і коефіцієнт чистої регресії biпри факторі xiстатистично значущий.

Якщо фактичне значення F менше табличного, то недоцільно включати в модель додатковий фактор, оскільки він не збільшує суттєво частку поясненої варіації результату, а коефіцієнт регресії при даному факторі статистично не значимий.

(слайд 5)Приватний F-критерій оцінює значення коефіцієнтів чистої регресії. Знаючи величину , можна визначити і t -критерій Стьюдента :

або

де m bi- Середня квадратична помилка коефіцієнта регресії b i, вона може бути визначена за формулою:

.

Величина стандартної помилки спільно з t-розподілом Стьюдента при n-m-1степенях свободи застосовується для перевірки значущості коефіцієнта регресії та для розрахунку його довірчого інтервалу.