Біографії Характеристики Аналіз

Довірчі інтервали для параметрів лінійної моделі. Довірчі інтервали параметрів парної регресійної моделі

Читайте також:
  1. Абсолютні та відносні показники сили зв'язку в рівняннях парної регресії.
  2. Алгоритм перевірки адекватності множинної регресійної моделі (сутність етапів перевірки, розрахункові формули, формулювання висновку).
  3. Алгоритм перевірки адекватності парної регресійної моделі.
  4. Алгоритм перевірки значущості регресорів у множинні регресійної моделі: статистична гіпотеза, що висувається, процедура її перевірки, формули для розрахунку статистики.
  5. Взаємозалежність формату команди та основних параметрів ЕОМ
  6. Взаємозв'язок режимних параметрів та стійкості інструменту.

При побудові інтервальних оцінок використовують спеціальні статистики з відомим розподілом. Для побудови довірчих інтервалів параметрів парної регресійної моделі aі b формуються t-статистики, що включають допоміжні випадкові величини:

Додамо до передумов класичної регресійної моделі передумову нормального розподілу випадкового обурення, тоді статистика V має розподіл, а статистики нормально розподілені.

З нормальності розподілу збурень випливає нормальність спільного розподілу вибіркових даних Y t (t=1,…,n), а т.к. МНК-оцінки коефіцієнтів регресії a^ і b^ є лінійними функціями Y t , їх спільний розподіл також є нормальним, і a^ - N(a, σ a ^ ^2), b^ - N(b, σ b ^ ^2).

Розподіл помилок оцінок параметрів: b-b^ - N(0, σ b ^ ^2), a-a^ - N(0, σ a ^ ^2), дійсно

E(a-a^)=a-E(a^)=0, E(b-b^)=b-E(b^)=0, т.к. МНК – оцінки b і a є несмещенными. Дисперсії: Var(a-a^)=Var(a^)= σ a ^ ^2, Var(b-b^)=Var(b^)= σ b ^ ^2.

Отже, випадкові величини Z b =(b-b^)/ σ b ^ і Z a =(a-a^)/ σ a ^ мають нормальний розподілз нульовим матем. очікуванням та одиничною дисперсією Z a – N(0,1), Z b – N(0,1).

Статистика, сформована за правилом t=Z/√V/k, де Z – стандартна нормальна випадкова величина, а V – незалежна від Z величина, розподілена за законом хі-квадрат із k ступенями свободи, має t-розподіл (Стьюдента) з параметром k. Таким чином, випадкові величини tb=Zb/√V/(n-2) = Zbσ/√Σet^2/(n-2) = Zbσ/√s^2 = ((b-b^)σ)/ σb^*s ,

ta = Za/√V/(n-2) = Zaσ/√Σet^2/(n-2) = Zaσ/√s^2 = ((b-b^)σ)/ σa^*s.

Є t-статистики з параметром n-2. Перетворимо вирази даних статистик до вигляду, зручному обчислення. З огляду на те, що σb^/σ=sb^/s і σa^/σ=sa^/s, значення t-статистик зручно обчислювати за формулами:

t b =(b-b^)/s b^ , ta =(b-b^)/s a^ , де s b^ ^2=s^2/Σx t ^2, s a^ ^2=s^2 * ΣX t ^2/nΣx t ^2.

Вирази є нормовані помилки оцінок параметрів і називаються дробом Стьюдента. Дроб Стьюдента має розподіл Стьюдента з (n-2) ступенями свободи. Задаючись деяким рівнем значущості α, за таблицями t-розподілу можна визначити критичне значення статистики t кр та, застосовуючи стандартну процедуру, побудувати довірчий інтервал, який з довірчою ймовірністю 1-α накриває значення статистики t.

Головна > Реферат

Довірчі інтервали для параметрів лінійної моделі.

Для значних коефіцієнтів регресії можна побудувати довірчі інтервали, використовуючи формулу: , (2.20) де t знаходять таблицю розподілу Стьюдента для значимості =1- та числа ступенів свободи =n-k-1. Інтервальна оцінка у точці, що визначається вектором початкових умовх 0 визначається за формулою: , (2.21) де = (x 0) т b; x 0 =
- вектор-стовпець початкових умов розмірності (k+1) t визначається за таблицею розподілу Стьюдента для рівня значущості  та числа ступенів свободи =n -k -1.

Для побудови моделі буде використано метод покрокової регресії. Складність взаємозв'язку факторів у моделі, що характеризують економічні явищанеобхідно спростити з метою виділення найбільш істотних зв'язків. Потрібно знайти оптимальний варіантмоделі, що відбиває основні закономірності досліджуваного явища з достатньою мірою статистичної надійності. У модель повинні бути включені всі фактори, які з економічної точки зору впливають на залежну змінну, однак кількість факторів, що включаються в модель, не повинна бути дуже великою. Невиконання цієї умови призведе до низки труднощів, серед яких – зниження точності оцінок, складність інтерпретації моделі та труднощі її практичного використання.

Можна виділити два різних підходудо вирішення проблеми скорочення кількості вихідних змінних. Один з них ґрунтується на тому, що відсіваються менш суттєві фактори у процесі побудови вихідної моделі, а другий – на заміні вихідного набору змінних меншим числомеквівалентних факторів, отриманих у результаті перетворення вихідного набору. Процедура відсіву несуттєвих факторів у процесі побудови регресійної моделі отримала назву багатокрокового регресійного аналізу. Цей метод заснований на обчисленні декількох проміжних рівнянь регресії, в результаті аналізу яких отримують кінцеву модель, що включає тільки фактори, що надають тісний статистично суттєвий вплив на досліджувану залежну змінну. У цьому мною використовувався багатокроковий регресійний аналіз, заснований на оцінці значимості коефіцієнтів регресії з допомогою t-критерію Стьюдента. Рівняння регресії будується максимально можливої ​​кількостіпояснюють змінних, які, ймовірно, впливають на досліджувану змінну. Після цього за допомогою певних критеріїв виключають ті змінні, які мають статистично несуттєвий вплив. Схема відбору значимих чинників у рівнянні регресії за допомогою t-критерію виглядає так: якщо всі коефіцієнти регресії значущі, то рівняння регресії визнається остаточним і приймається як модель досліджуваної ознаки; якщо серед коефіцієнтів регресії є незначні, то відповідні перемінні, що пояснюють, слід виключати з рівняння. Однак попередньо слід проранжувати коефіцієнти регресії за величиною t набл і насамперед виключити такий фактор, для якого коефіцієнт регресії незначний і t набл має найменше значенняпо абсолютної величини. Значення рівняння регресії перераховується знову без виняткового фактора і потім проводиться оцінка коефіцієнтів регресії за t-критерієм. Це повторюється до того часу, поки коефіцієнти регресії у рівнянні стануть значними. Найпростіша схемаПеревірка значущості коефіцієнтів регресії зводиться до побудови довірчого інтервалу для кожного з них і перевірки гіпотези про те, чи знаходиться нуль усередині побудованого інтервалу. Якщо гіпотеза не відкидається, цей коефіцієнт регресії вважається незначним чи його значимість ставиться під сумнів і з'ясовується наступних етапах аналізу. При даному методіна кожному кроці, крім формальної статистичної перевіркизначимості коефіцієнтів регресії, ведеться також економічний аналізнесуттєвих факторів та встановлюється порядок їх виключення. У деяких випадках значення t набл знаходиться поблизу t кр, і з погляду змістовності моделі цей фактор можна залишити для подальшої перевірки його значущості у поєднанні з іншими наборами факторів. Не суттєвість коефіцієнта регресії по t-критерію який завжди є основою виключення змінної з подальшого аналізу. Тому в деяких випадках потрібно використовувати деякі додаткові емпіричні процедури виключати змінну з рівняння регресії лише в тому випадку, коли середня квадратична помилка коефіцієнта регресії перевищує абсолютний розмір обчисленого коефіцієнта, коли t набл 1.5. 3. Побудова багатовимірної регресійної моделі доходу для цирків Російської Федерації. 3.1 Вибір чинників побудови багатовимірної регресійної моделі доходу цирків Російської Федерації. Для побудови багатовимірної регресійної моделі доходів цирків Російської Федерації було обрано цирки 34-х міст РФ. З статистичних даних наданих Росгосцирком і Держкомстатом РФ було проведено попередній аналіз вихідних даних. Як фактори, що характеризують діяльність цирків, були розглянуті: населення міста, кількість місць у цирку, кількість вистав, кількість глядачів, які відвідали цирк, доходи, витрати, прибуток і відвідуваність. Для отримання однорідної статистичної сукупності було проведено кластерний аналіз, у результаті було отримано кластери, які мають достатньої статистичної однорідністю для побудови багатовимірної регресійної моделі. Кластерний аналіз було проведено за 8 показниками, проте для побудови багатовимірної регресійної моделі всі ці показники використані не можуть, оскільки обсяг вибірки має бути значно більше числафакторів, що включаються до регресійної моделі n>>k .

Такі фактори як кількість глядачів, кількість місць та кількість уявлень входять до формули розрахунку чисельних значень фактора відвідування формула (3.1):

Кількість глядачів* 100% = % відвідування. (3.1)

Кількість місць * кількість подань

Ця формула застосовується до розрахунку відвідуваності у бухгалтерському обліку Росгосцирка. Отже, фактор кількість глядачів і кількість уявлень недоцільно включати в регресійну модель, оскільки виникає небезпека мультиколлінеарності і, як наслідок, статистичної ненадійності моделі. Чинник кількість місць вирішено включити до моделі з економічних міркувань. Побудова рівняння регресії передбачає вирішення двох основних завдань. Перше завдання полягає у виборі незалежних змінних, у нашому прикладі витрата, кількість місць, відвідування, що істотно впливають на залежну змінну (дохід), а також у визначенні виду рівняння регресії. Друге завдання побудови рівняння регресії – оцінювання параметрів рівняння. Вона вирішується за допомогою того чи іншого математично-статистичного методу обробки даних. Для аналізу статистично даних було застосовано пакет прикладних програм Статистика 5,0 – ППП “Statistica”. Змінні, які використовуватимуться у багатовимірному статистичному аналізі, мають різні одиниці виміру. Тому перед проведенням статистичного аналізудані стандартизувалися, тобто наводилися до єдиної шкали вимірів. У пакеті прикладних програм Статистика 5,0 команда Standardize Rows Columns (стандартизація рядків) дозволяє виконати стандартизацію значень у кожному рядку виділеного блоку. Значення змінних у блоці змінюються на стандартизовані, які обчислюються за такою формулою (3.2): нове значення = (старе значення – середнє у виділеному рядку)/стандартне відхилення, t = xx. (3.2) s Далі з метою отримання однорідних статистичних сукупностей було проведено кластерний аналіз. Кластерний аналіз – це загальна назвабезлічі обчислювальних процедур, що використовуються при створенні класифікації. Це багатовимірна статистична процедура, що виконує збір даних, що містить інформацію про вибірку об'єктів, а потім впорядковує об'єкти порівняно однорідні групи. Як відстань між об'єктами приймалися різні відстані, звичайна евклідова відстань, виважена евклідової відстані. При об'єднанні групи в кластерному аналізі було розглянуто дендограми (додаток № 4.) зроблені, двома ієрархічними методами: методом далекого сусіда(Complete Linkage) та методом Уорда (Ward's method). Графічне уявленнярезультатів кластерного аналізу здійснюватиметься за допомогою ППП “Statistica”. Кластерний аналіз проводиться в одному, вище розглянутому статистичному пакеті прикладних програм. Всі дендограми представлені в додатку № 4. Таким чином, використовуючи кілька алгоритмів кластерного аналізу, віддамо перевагу розбиттю на два кластери методом Уорда. У методі «Уорда» у цій дипломної роботибуде застосовуватись виважена евклідова відстань. На рис. 3.1 представлена ​​дендограма класифікації міст на основі виваженої евклідової відстані та принципу Уорда.

Рис. 3.1. дендограма. Класифікація міст на основі виваженої евклідової відстані та принципу Уорда.

Класифікація проводилася за різними алгоритмами кластерного аналізу, але найкращими у змістовному плані виявилися результати, отримані методом Уорда під час розбиття на два кластери, перший: що з 18 міст, і другий: з 16 міст. Таким чином, було отримано дві статистично однорідні групи. У нашому прикладі слід зупинитися на застосуванні саме цього методу, як найкращого варіанту класифікації. Результати кластерного аналізу представлені у таблиці № 3.1. Таблиця №3.1. Міста, що увійшли до першого і другого кластерів.

№ п/п 1 кластер № п/п 2 кластер
1 Владивосток 1 Астрахань
2 Волгоград 2 Брянськ
3

Воронеж

3

Іваново

4 Іркутськ 4 Кемерово
5 Краснодар 5 Кіров
6 Красноярськ 6 Кисловодськ
7 Тверь 7 Кострома
8 Єкатеринбург 8 Курськ
9

Самара

9 Сочі
10 Новосибірськ 10 Магнітогорськ
11 Київ 11 Нижній Тагіл
12 Перм 12 Новокузнецьк
13 Ростов Дон 13 Оренбург
14 Рязань 14 Пенза
15 Саратов 15 Ставропіль
16 Тула 16 Тюмень
17 Челябінськ
18 Ярославль
3.2. Побудова багатовимірної регресійної моделі. Застосування кластерного аналізу дозволило надати статистичні дані у вигляді двох статистично однорідних груп, для розуміння яких, доцільно побудувати регресійну модель для кластера № 1. Застосування методів кореляційного та регресійного аналізу дозволило дослідити залежність доходів від наступних показників виробничо-господарської діяльності:
    у – дохід; х1 – кількість місць; х2 – витрата; х3 – відвідування.
Вихідні статистичні дані для аналізу представлені у додатку №5. Аналіз матриці парних коефіцієнтів кореляції дозволив оцінити тісноту взаємозв'язку між факторами, включеними в модель, а також оцінити можливість виникнення мультиколініарності. Наявність мультиколініарності в даній моделі не виявлено. За результатами аналізу матриці парних коефіцієнтів кореляції, зроблено висновок, використовувати такі фактори як: кількість місць, витрата, відвідування. Як результативна ознака - дохід. У таблиці № 3.2 представлені результати побудови регресійної моделі доходів для кластера № 1 залежно від факторів: кількість місць, витрата, відвідування та дохід. Таблиця №3.2. Статистична оцінка параметрів багатовимірної регресійної моделі доходів цирків для кластера №1.
F(3,14)=32,512 p<,00000 Std.Error of estimate: ,40801 RІ= ,87447834
Intercpt
КІЛЬКІСТЬ МІСЦЬ
ВИТРАТИ
Відвідування
Durbin-Watson d =2,1974158
Застосування пакета прикладних програм Статистика 5,0 - ПВП «Statistica», дозволило побудувати регресійну модель доходів для кластера № 1: Y = +0,04547-0,04079 * Х1 + 0,99053 * Х2 + 0,07429 * Х3. (3.3) Статистична надійність моделі була оцінена за допомогою наступних параметрів адекватності (таблиця № 3.2): множинного коефіцієнта детермінації R 2 = 0,87447, що свідчить про те, що 87,4% варіації доходів об'єднує показниками, що увійшли в модель (Х1, Х2, Х3), відносної помилки апроксимації δ = 0,40801, розрахунковим значенням F - критерію F набл = 32,512. Рівняння регресії значуще, оскільки F набл = 32,512 > F кр =3,11, знайденого по таблиці F – розподілу за рівня значимості α = 0,05 і числах ступенів свободи ν 1 =4 і ν 1 =14. Для перевірки гіпотези про значимість окремих коефіцієнтів регресії Н0: ? З рівняння випливає, що статистично значущим є лише один коефіцієнт регресії t 2 , оскільки розрахункове значення t 2  = 8,69883 > tкр = 2,145. Розрахункові значення t j  для решти коефіцієнтів регресії менше tкр =2,145 при α = 0,05 та числі ступенів свободи ν 1 =14. Для отримання регресії зі значними коефіцієнтами використовуємо покроковий алгоритмрегресійного аналізу. Спочатку використовуємо покроковий алгоритм із винятком змінних. Виключимо з моделі змінну Х1 - кількість місць, якій відповідає мінімальне за абсолютною величиною значення коефіцієнта t 1 = 0,34465. Для змінних, що залишилися, знову побудуємо рівняння регресії: Y = +0,03001+0,97113*Х2+0,08843*Х3. (3.4) У таблиці № 3.3 представлені результати побудови регресійної моделі доходів для кластера № 1 залежно від факторів: витрата, відвідування та дохід. Таблиця №3.3. Статистична оцінка параметрів багатовимірної регресійної моделі доходів цирків для кластера №1.
R= ,93456584 RІ= ,87341332 Adjusted RІ= ,85653509

F(2,15)=51,748 p<,00000 Std.Error of estimate: ,39585

Intercpt
ВИТРАТИ
Відвідування

Durbin-Watson d =2,1400127

Отримане рівняння значуще, оскільки F набл = 51,748 > F кр =3,29 за рівня значимості α = 0,05 і числах ступенів свободи ν 1 =3 і ν 1 =15, знайденого за таблицею F –розподілу. Однак у рівнянні значимий лише один коефіцієнт регресії t 2 2 = 10,11286 при tкр (0,05; 15) = 1,753. Розрахункове значення t 3  = 0,95991 менше tкр (0,05;15)=1,753, знайденого за таблицею t – розподілу при tкр =2,145 при α = 0,05 та числі ступенів свободи та ν 1 =15. Виключимо з моделі змінну Х3 - відвідування, якій відповідає мінімальне за абсолютною величиною значення коефіцієнта t 3 = 0,95991. Для змінних, що залишилися, знову побудуємо рівняння регресії:

Як правило, у лінійної регресіїзазвичай оцінюється значущість як рівняння загалом, а й окремих його параметров. індивідуальним значеннямознак. Тому необхідна статистична оцінка ступеня точності та надійності параметрів кореляції. Під надійністю тут розуміється ймовірність того, що значення параметра, що перевіряється, не дорівнює нулю, не включає в себе величини протилежних знаків.

Імовірнісна оцінка параметрів кореляції здійснюється за загальним правиламперевірки статистичних гіпотез, розробленим математичною статистикою, зокрема шляхом порівняння оцінюваної величини із середньою випадковою помилкоюоцінки. Для коефіцієнта парної регресії bсередня помилка оцінки обчислюється як:

де D остзалишкова дисперсіяоднією ступінь свободи.

Для нашого прикладу величина стандартної помилки коефіцієнта регресії склала:

.

Для оцінки того, наскільки точні значення показників можуть відрізнятись від розрахованих, здійснюється побудова довірчих інтервалів. Вони визначають межі, в яких лежать точні значення визначених показників із заданим ступенем точності, що відповідає заданому рівню значущості α (α - можливість відкинути правильну гіпотезу за умови, що вона вірна, зазвичай приймається рівною 0,05 або 0,01 ).

Для оцінки статистичної значимостікоефіцієнта лінійної регресії та лінійного коефіцієнтапарної кореляції, а також для розрахунку довірчих інтервалів b,застосовується t – критерій Стьюдента.

Для оцінки суттєвості коефіцієнта регресії його величина порівнюється зі стандартною помилкою, тобто. визначається фактичне значення t-критерію Стьюдента: яке потім порівнюється з табличним значенням при певному рівні значущості ата числі ступенів свободи ( n- 2).

У цьому прикладі фактичне значення t-критерію для коефіцієнта регресії склало:

.

Цей же результат отримаємо, витягуючи квадратний коріньіз знайденого F-критерію, тобто.

Справді, справедлива рівність.

При (для двостороннього критерію) та числі ступенів свободи 13 табличне значення t b = 2,16. Оскільки фактичне значення t‑критерію перевищує табличне, то, отже, гіпотезу про несуттєвість коефіцієнта регресії можна відхилити.

Для розрахунку довірчих інтервалів для параметрів aі bрівняння лінійної регресії визначаємо граничну помилку для кожного показника:

∆ а = t табл · m a , ∆ b = t табл · m b .

Формули для розрахунку довірчих інтервалів мають вигляд:

γ a = a ± ∆ а γ amin = a - ∆ а γ amin = a + ∆ а

γ b = b ± ∆ b γ bmin = b - ∆ b γ bmin = b + ∆ b

Якщо межі інтервалу мають різні знаки, тобто. у ці межі потрапляє нуль, то оцінюваний параметр приймається нульовим.

Довірчий інтервал для коефіцієнта регресії визначається як . Для коефіцієнта регресії bу прикладі 95%-ві межі складуть:

0,022 ± 2,16 · 0,0026 = 0,022 ± 0,0057, тобто.

0,016 ≤ b ≤ 0,027.

Оскільки коефіцієнт регресії в економетричних дослідженнях має чітку економічну інтерпретацію, то довірчі межі інтервалу для коефіцієнта регресії не повинні містити суперечливих результатів, наприклад, -10 ≤ b ≤ 40. Такий запис вказує, що справжнє значеннякоефіцієнта регресії одночасно містить позитивні та негативні величиниі навіть нуль, чого не може бути.

Стандартна помилка параметра авизначається за формулою:

Процедура оцінювання суттєвості даного параметра не відрізняється від розглянутої вище коефіцієнта регресії; обчислюється t-критерій: його величина порівнюється з табличним значенням при df= n- 2 степенях свободи. У нашому прикладі m aсклала 0,032.

Значимість лінійного коефіцієнта кореляції перевіряється з урахуванням величини помилки коефіцієнта кореляції m r:

Фактичне значення t-критерію Стьюдента визначається як

Ця формула свідчить, що у парної лінійної регресії , бо, як зазначалося, Крім того, Отже,

Таким чином, перевірка гіпотез про значущість коефіцієнтів регресії та кореляції рівносильна перевірці гіпотези про суттєвість лінійного рівняннярегресії.

У цьому прикладі t r збіглося з t b. Величина t r =8,37значно перевищує табличне значення 2,16 при а = 0,05.Отже, коефіцієнт кореляції суттєво відрізняється від нуля і залежність є достовірною.

Прогноз, отриманий підстановкою в рівняння регресії очікуваного значення фактора, називають точковим прогнозом.Імовірність точної реалізації такого прогнозу вкрай мала. Необхідно супроводжувати його значенням середньої помилкипрогнозу або довірчим інтервалом прогнозуз досить великою ймовірністю.



Точковий прогноз полягає в отриманні прогнозного значення y p , яке визначається шляхом підстановки рівняння регресії

відповідного прогнозного значення x p:

y p = a + b x p .

Інтервальний прогноз полягає у побудові довірчого інтервалу прогнозу, тобто. верхньої та нижньої межі y pmin , y pmaxінтервалу, що містить точну величину для прогнозного значення
(y pmin< y p < y pmax ) . Довірчий інтервал завжди визначається із заданою ймовірністю, що відповідає прийнятому значенню рівня значущості α.

Попередньо обчислюється стандартна помилкапрогнозу.

А потім будується довірчий інтервал прогнозу, тобто. визначається нижня та верхня межі інтервалу прогнозу

, ,

де .

Припустимо, у прикладі необхідно знайти прогнозне значення результату, за умови, що прогнозне значення чинника хзбільшиться на 15% від свого середнього рівня та визначити довірчий інтервал прогнозу.

Збільшення прогнозного значення фактора хдасть величину

Підставляючи її у формулу, знаходимо

,

прогнозне значення результату за заданої умови

y p = a+b∙x p = 6,63+0,022∙149,99 = 9,95.

Т.о. довірчий інтервал прогнозу складе

9,73 < y p <10,18.

В разі нелінійної регресіїоцінка суттєвості індексу кореляції проводиться, як і і оцінка надійності коефіцієнта кореляції. Індекс детермінації використовується для перевірки суттєвості в цілому рівняння нелінійної регресії за F-критерієм Фішера:

де R 2- Індекс детермінації;

n- Число спостережень;

m- Число параметрів при змінних х.

Величина mхарактеризує число ступенів свободи для факторної суми квадратів, а ( n - m - 1) – число ступенів свободи залишкової суми квадратів.

Для статечної функції та формула F – критеріїнабуде того ж вигляду, що і при лінійній залежності:

Для параболи другого ступеня y = a + b x + c x 2 + ε m = 2і .

Для оцінки якості побудованої моделі використовується також середня помилка апроксимації. Фактичні значення результативного ознаки від теоретичних, розрахованих за рівнянням регресії, тобто. у і . Чим менше ця відмінність, тим ближче теоретичні значення підходять до емпіричних даних, краща якість моделі. Величина відхилень фактичних та розрахункових значень результативної ознаки ( у- ) по кожному спостереженню є помилкою апроксимації. Їх кількість відповідає обсягу сукупності. В окремих випадках помилка апроксимації може бути рівною нулю. Для порівняння беруться величини відхилень, виражені у відсотках до фактичних значень. Так, якщо для першого спостереження у=20, а для другого у=50, помилка апроксимації складе 25% для першого спостереження та 20% - для другого.

Оскільки ( у- ) може бути як величиною позитивної, так і негативною, то помилки апроксимації для кожного спостереження прийнято визначати у відсотках за модулем.

Щоб мати загальне судження про якість моделі відносних відхилень по кожному спостереженню, визначають середню помилку апроксимації як середню арифметичну просту:

.

Для нашого прикладу подаємо розрахунок середньої помилки апроксимації в таблиці 4.

2.4. Перевірка адекватності регресійної моделі

2.4.1. Коефіцієнт детермінації

У класичному регресійному аналізі передбачається, що функція регресії відома (специфікована) з точністю до параметрів, тобто набір регресорів (незалежних змінних) визначено. В емпіричних дослідженнях економічних та соціальних процесів, з безлічі можливих варіантів регресійних рівнянь, що відрізняються набором регресорів, необхідно вибрати найбільш адекватну модель (регресійну функцію). Така модель найкраще пояснює поведінку реального процесу. Для оцінки якості моделі лінійної регресії у класичному регресійному аналізі використовується показник, який називається коефіцієнтом детермінаціїR 2(читається R- Квадрат). Коефіцієнт детермінації відіграє у регресійному аналізі. Нижче наведено три еквівалентні визначення цього показника, які відрізняються формою запису та способом інтерпретації.

Уявімо відхилення залежної змінної від її вибіркового середнього у вигляді

Розглянемо останній доданок у правій частині цього виразу. Маємо:

отримаємо, що

Суму, що стоїть у лівій частині цього виразу, називають повною сумою квадратів, перша сума у ​​правій частині () називається сумою квадратів, поясненою моделлю, друга сума правої частини називається залишковою сумою квадратів. Далі, використовуючи вираз (), можна записати

Тут ми використовували такі співвідношення:

(це випливає з першого рівняння системи нормальних рівнянь (2.11), (2.12), (Тут використано властивість (2.20) залишків). З () випливає, що повну варіацію змінної y можна розкласти на дві складові: це частина повної варіації, пояснена регресією, і непояснена частина повної варіації, яка обумовлена ​​випадковою складовою моделі. Розкладання () та () використовуються для визначення коефіцієнта детермінації.

Перше уявлення коефіцієнта детермінації

Визначимо коефіцієнт детермінації наступним співвідношенням

У знаменнику стоїть повна сума квадратів (total sum of squares)для її позначення будемо використовувати абревіатуру TSS, так що

При побудові моделі парної лінійної регресії слід домагатися, щоб значення коефіцієнта детермінації було якомога ближче до одиниці. Для його обчислення простіше та зручніше використовувати формулу ().

Приклад 2.4.

Обчислення коефіцієнта детермінації моделі прикладу 2.1. Обчислення за формулою () дають таке значення коефіцієнта детермінації моделі прикладу 2.1: R 2 = 0,9965. Таким чином, коефіцієнт детермінації близький до одиниці, що вказує на хорошу якість апроксимації даних, що спостерігаються побудованою моделлю.

приклад 2.5.

Обчислення коефіцієнтів детермінації для моделей товарообігу філій прикладу 2.2. Для першої регресії прикладу 2.2, що описує залежність товарообігу від торгової площі, коефіцієнт детермінації R 1 2 = 0,96886. Для другої регресії, що описує залежність товарообігу від середньоденної інтенсивності потоку покупців R 2 2 = 0,42433.

Отже, отримані об'єктивні показники якості регресійних моделей - коефіцієнти детермінації, підтверджують зроблене раніше припущення (див. приклад 2.2) у тому, перша регресія краще пояснює поведінка залежної змінної.

2.4.2. Побудова довірчих інтервалів для коефіцієнтів регресії

Розглянутий у попередньому розділі показник адекватності - коефіцієнт детермінації використовується з метою оцінки якості регресійних моделей загалом, при порівнянні альтернативних моделей. У цьому розділі розглядаються процедури, що дозволяють зробити висновок як оцінки істинних значень окремих параметрів рівняння.

Оцінки дисперсій МНК-оцінок коефіцієнтів

Однією з важливих характеристик якості оцінки є її дисперсія як міра відхилення щодо очікуваного значення. Отримані рівняння (2.22 ), (2.23 ) (або (2.24 )) для дисперсій оцінок залежать від невідомої дисперсії випадкової складової регресійної моделі u. Для того, щоб ці рівняння можна було використовувати в практичних розрахунках, необхідно визначити оцінку величини . Це ще один параметр моделі. Незміщеною оцінкою дисперсії випадкового члена uє оцінка виду

Вираз () використовується для обчислення оцінок дисперсій оцінок aі bкоефіцієнтів регресії Для цього в рівняннях (2.22), (2.23), (2.24) теоретична дисперсія замінюється її оцінкою (). Таким чином, оцінки дисперсій мають вигляд

Визначення довірчих інтервалів оцінок параметрів моделі

Отримані оцінки параметрів та моделі є точковими. Формули (2.13), (2.14) визначають оцінки у вигляді випадкових чисел, що залежать від конкретної вибірки спостережень. Ці числа можуть в окремих випадках суттєво відхилятися від дійсних значень параметрів. У зв'язку з цим постає питання - чи можливо визначити з достатнім ступенем надійності, наскільки отримані оцінки близькі до істинних значень параметрів, чи точніше, визначити інтервали, в межах яких із заданою ймовірністю можуть бути справжні значення параметрів. Виявляється, такі інтервали можна збудувати, використовуючи так звані t-Тести. Для побудови t-тестів необхідне припущення про нормальність випадкової складової, тобто t-тест застосовується в рамках припущень класичної нормальної лінійної регресії. За допомогою t-тестів можна перевірити гіпотези як про окремі числові значення коефіцієнтів регресії, так і про значення їх лінійних комбінацій. Останнє особливо важливе для судження про адекватність моделей множинної лінійної регресії. t- Тести дозволяють також побудувати довірчі інтервалидля коефіцієнтів регресії та прогнозних значень залежної змінної.

t-Тести засновані на наступному важливому затвердженні: випадкові змінні

підкоряються центральному розподілу Стьюдента (t-розподілу, звідси назва - t - тести) з (n-2) ступенями свободи.

Зауваження щодо ступенів волі.

Кількість ступенів свободи дорівнює кількості спостережень змінних мінус кількість оцінюваних коефіцієнтів моделі. У моделі парної лінійної регресії таких коефіцієнтів лише два. Збільшення кількості коефіцієнтів моделі регресії при фіксованому розмірі вибірки відповідно зменшує кількість ступенів свободи.

Вочевидь, що похибки точкових оцінок коефіцієнтів рівні відповідно , . Це випадкові величини, оскільки випадковими є самі оцінки. Тому про точність оцінок (про їхню похибку) можна судити лише в ймовірнісному сенсі. Задамо ширину інтервалу похибки (не випадкову величину) і визначимо надійність оцінки, як ймовірність, з якою помилка точкової оцінки потрапить у цей фіксований інтервал. Формально це можна записати так

де - ймовірність того, що помилка точкової оцінки потрапила в заданий інтервал. Можна сказати, що ймовірність характеризує ступінь довіри до заданого інтервалу, тому вона називається довірчою ймовірністюабо надійністю. Величина – ймовірність того, що помилка вийде за межі даного інтервалу, називається рівнем значимості.

Співвідношення (), () можна переписати у вигляді

Інтерпретація довірчих інтервалів

Вирази (), () інтерпретуються наступним чином: величина - це ймовірність того, що невипадкові параметри, що оцінюються, і покриваються відповідно інтервалами , з випадковими кінцями, що залежать від випадкових величин - оцінок aі b.

Ці інтервали називаються довірчими інтервалами. Довірчі інтервали називають також інтервальними оцінкамиі вони доповнюють точкові оцінки параметрів. Інтервальні оцінки дають додаткову, цінну інформацію про надійність точкових оцінок та дозволяють підвищити надійність суджень про точкові оцінки.

Визначення довірчих інтервалів.

Для визначення довірчих інтервалів використовуються t- Статистики Стьюдента виду (), (). Для статистики t(має t-розподіл) можна визначити значення (з таблиці t-критерія) , що відповідає заданому рівню значимості та даному числу ступенів свободи, (тут p- кількість ступенів свободи, за двох параметрів p = 2), таке, що

з ймовірністю накривають невідомі справжні значення параметрів регресії та . Розташування та ширина довірчих інтервалів змінюються від вибірки до вибірки. Справді, їхнє розташування та ширина залежать як від оцінок коефіцієнтів, які є змінними (випадковими величинами), так і від випадкових значень вибіркових оцінок середньоквадратичних відхилень. s aі s b. При побудові економетричних регресійних моделей довірчі інтервали зазвичай визначають двох рівнів значимості - і . Відповідно говорять про 5%-му рівні значимостіабо про 1% - му рівні значимості. Довірчі ймовірності (рівні довіри) при цьому дорівнюватимуть і . Відповідно говорять про 95% або про 99% рівень довіри (надійності). Підкреслимо, що менше рівень значимості (більше рівень довіри), тим ширше відповідний довірчий інтервал (за інших рівних умов).

Можна сказати, що при 95% - му рівні довіри довірчий інтервал в середньому в 95 випадках зі 100 накриває справжнє значення параметра, при 99% - ом - у 99 випадках зі ста.

приклад 2.6.

Визначення довірчих інтервалів моделі прикладу 2.1.Визначимо межі довірчих інтервалів для коефіцієнтів моделі прикладу 2.1. Припускатимемо, що регресор x- Не випадкова величина. Тоді оцінки дисперсій залишків та коефіцієнтів регресії обчислюються за формулами (), (), (). Вони рівні відповідно: , , . Табличне значення t- статистики для 13 ступенів свободи та рівня значимості дорівнює 2,160. Використовуючи ці дані, легко обчислити межі довірчих інтервалів для коефіцієнтів та: ; . Таким чином, можна стверджувати, що дійсні значення коефіцієнтів з ймовірністю 0,95 знаходяться в межах зазначених меж.

приклад 2.7.

Довірчі інтервали для моделей прикладу 2.2.Аналогічно попередньому прикладу можна визначити межі довірчих інтервалів для двох регресій прикладу 2.2. Критичне значення t- статистики за рівня значимості 0,05 і p = 12 - 2 = 10ступенів свободи одно 2,228 . Оцінені середньоквадратичні відхилення оцінок коефіцієнтів першої регресії рівні s a = 0,2887, s b = 0,2961. Довірчі інтервали для коефіцієнтів: , . Для другої регресії s a = 2,7334, s b = 0,2516. Довірчі інтервали: , .

Побудуйте довірчі інтервали для моделей прикладів 2.1, 2.2. при рівні значимості.

2.4.3. Точковий та інтервальний прогноз залежної змінної

Визначимо прогноз середнього значення залежної змінної як оцінку теоретичного взаємозв'язку за допомогою емпіричної (оціненої) регресійної функції

де x- деяке значення незалежної змінної, взагалі кажучи, незбігається зі значеннями змінних з вибірки, якою оцінені параметри регресії. Оскільки оцінки aі b- Випадкові величини, то і прогноз буде випадковою величиною.

Зауваження. Прогноз середнього значення та прогноз індивідуального значення залежної змінної.

Слід розрізняти прогноз середнього значення регресанда як оцінку його математичного очікування з урахуванням причини M(u i) = 0(першої умови Гауса - Маркова), та прогноз як оцінку можливого індивідуального значення (реалізації) y iрегресанда y. В цьому випадку в рівняння () слід додати прогноз випадкової складової моделі. Як прогнозне значення випадкової складової беруть її математичне очікування, яке дорівнює нулю. Ця різниця у розумінні сенсу прогнозу суттєво, оскільки відповідні дисперсії помилок прогнозу та довірчі інтервали будуть різні.

Розглянемо спочатку прогноз середньої залежної змінної.

Дисперсія прогнозу середньої залежної змінної та її оцінка

При виведенні рівнянь для дисперсії та її оцінки ми використовуватимемо правила перетворення теоретичних варіацій (дисперсій) та підступних варіацій випадкових величин. Ці правила такі самі, як і для відповідних вибіркових характеристик, які були встановлені в розділі 2.3.2. Для запису теоретичних значень варіацій та коваріацій ми будемо використовувати позначення var(,), cov(,).

Отримаємо вираз для дисперсії прогнозу. Маємо

Таким чином, остаточно маємо

Звернемо увагу, що у вираженні () змінна x- Це значення регресора (незалежної змінної), для якого визначається прогноз середнього значення залежної змінної (регресанда). Оскільки в () теоретичне значення дисперсії випадкової складової моделі невідомо, то щоб отримати оцінку дисперсії прогнозу, замінимо її оцінкою за формулою (). Тоді отримаємо

Визначення довірчих інтервалів для прогнозу середнього значення залежної змінної

Визначимо довірчий інтервал для прогнозу () залежною змінною. Цей інтервал із ймовірністю накриває середнє значення залежної змінної. Побудова довірчого інтервалу ґрунтується на застосуванні t-статистики виду

верхня межа

Очевидно, що

Довірчий інтервал для індивідуальних значень залежної змінної

Довірчий інтервал для індивідуальних значень будується з використанням t-статистики виду

верхня межа

де кількість ступенів свободи p = n-2.

приклад 2.8. Довірчі межі прогнозів середнього та індивідуального значень залежної змінної моделі прикладу 2.1.

Визначимо прогноз прибутковості акцій компанії на момент t = 3, тобто для значення x = x 3 = 0,07та побудуємо довірчі інтервали прогнозів середнього та індивідуального значень, припускаючи, що регресор x- Не випадкова величина.

Використовуючи рівняння регресії з оціненими коефіцієнтами (див. приклад 1.1), отримаємо

Для визначення довірчих інтервалів необхідно заздалегідь обчислити оцінки дисперсій прогнозу середнього та індивідуального значень залежної змінної. Використовуючи формули () та (), відповідно отримаємо: , . Межі для середнього значення дорівнюють:

нижня

верхня

Побудуйте інтервальні прогнози середніх та індивідуальних значень залежної змінної для регресій прикладу 2.2.

2.4.4. Перевірка статистичних гіпотез щодо коефіцієнтів регресії

Двосторонній t-тест
(t – тест двосторонньої пари гіпотез)

Крім визначення довірчих інтервалів для коефіцієнтів, при побудові регресійних моделей важливим є питання перевірки гіпотез щодо деяких конкретних значень окремих коефіцієнтів регресії. Таке питання виникає, наприклад, якщо необхідно перевірити, чи статистично значущий вплив регресора (незалежної змінної) на регрессанд (залежну змінну). І тут можна сформулювати і спробувати перевірити дві гіпотези:

нульова гіпотеза

У загальному випадку, якщо на основі аналізу об'єкта моделювання можна заздалегідь (тобто ще до проведення спостережень) припустити (висловити гіпотезу), що регресійний коефіцієнт дорівнює деякому значенню, то для перевірки цього гіпотези формулюються таким чином:

Правило прийняття рішень на основі статистики () наступне: гіпотеза H 0 відхиляється, якщо

(еквівалентний запис цієї умови);

гіпотеза H 0 приймається, якщо

(Еквівалентний запис).

Область значень t-статистики, що задається виразом (), називається областю відхилення гіпотези. H 0, а область () - областю прийняття гіпотези H 0, за рівня значимості .

Помилки І та ІІ роду.

При перевірці та прийнятті гіпотез існує ризик допущення помилок І та ІІ роду. Помилка I роду виникає, якщо нульова гіпотеза істинна, але вона відкидається. Помилка ІІ роду виникає, коли нульова гіпотеза хибна, але вона не відкидається. Оскільки t- статистика - величина випадкова, вона може випадково прийняти значення у сфері відхилення нульової гіпотези, навіть якщо ця гіпотеза правильна. Так як ймовірність влучення t-Статистики в область прийняття гіпотези дорівнює, а ймовірність попадання в область відхилення дорівнює, то рівень значущості і буде ймовірністю помилки першого роду. Чим менший рівень значущості, тим із більшою основою (з більшою надійністю) можна прийняти нульову гіпотезу. Такий рівень значущості називають вищим. Проте, якщо нульова гіпотеза насправді помилкова, у разі зростає ймовірність помилки другого роду. Якщо ж вибрати низький рівень значущості (це відповідає більшому значенню), то ймовірність помилки першого роду буде вищою. Насправді йдуть на компроміс, і перевіряють гіпотези для двох рівнів значимості: низького, зазвичай 5%-го і високого, зазвичай 1%-го.