Біографії Характеристики Аналіз

Лінійний регресійний аналіз. Методи математичної статистики

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика
Регресійна статистика
Множинний R 0,998364
R-квадрат 0,99673
Нормований R-квадрат 0,996321
Стандартна помилка 0,42405
Спостереження 10

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а - регресійну статистику.

Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний R дорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії
Коефіцієнти Стандартна помилка t-статистика
Y-перетин 2,694545455 0,33176878 8,121757129
Змінна X 1 2,305454545 0,04668634 49,38177965
* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану у таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).

Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки
Спостереження Передбачене Y Залишки Стандартні залишки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення

лекція 3.

Регресійний аналіз.

1) Числові показники регресії

2) Лінійна регресія

3) Нелінійна регресія

4) Множинна регресія

5) Використання MS EXCEL для виконання регресійного аналізу

Контрольно-оцінний засіб - тестові завдання

1. Числові характеристики регресії

Регресійний аналіз – статистичний метод дослідження впливу однієї чи кількох незалежних змінних на залежну змінну. Незалежні змінні інакше називають регресорами чи предикторами, а залежні змінні – критеріальними. Термінологія залежних і незалежних змінних відбиває лише математичну залежність змінних, а чи не причинно-наслідкові відносини.

Цілі регресійного аналізу

  • Визначення ступеня детермінованості варіації критеріальною (залежною) змінною предикторами (незалежними змінними).
  • Передбачення значення залежної змінної за допомогою незалежної.
  • Визначення внеску окремих незалежних змінних до варіації залежної.

Регресійний аналіз не можна використовувати для визначення наявності зв'язку між змінними, оскільки наявність такого зв'язку є передумовою для застосування аналізу.

Для проведення регресійного аналізу спочатку необхідно ознайомитися з базовими поняттями статистики та теорії ймовірності.

Основні числові характеристики дискретних та безперервних випадкових величин: математичне очікування, дисперсія та середнє квадратичне відхилення.

Випадкові величини ділять на два різновиди:

  • · дискретні, які можуть набувати лише конкретні, заздалегідь обумовлені значення (наприклад, - значення чисел на верхній грані покинутої гральної кістки або порядкові значення поточного місяця);
  • · безперервні (найчастіше - значення деяких фізичних величин: ваги, відстані, температури тощо), які за законами природи можуть набувати будь-яких значень, хоча б і в деякому інтервалі.

Закон розподілу випадкової величини - це відповідність між можливими значеннями дискретної випадкової величини та її ймовірностями, що зазвичай записується в таблицю:

Статистичне визначення ймовірності виражається через відносну частоту випадкової події, тобто як ставлення кількості випадкових величин до загального числа випадкових величин.

Математичним очікуванням дискретної випадкової величиниXназивається сума творів значень величини Xна ймовірності цих значень. Математичне очікування позначають або M(X) .

n

= M(X) = x 1 p 1 + x 2 p 2 +… + x n p n = S x i p i

i=1

Розсіювання випадкової величини щодо її математичного очікування визначається за допомогою числової характеристики, яка називається дисперсією. Простіше кажучи, дисперсія – це розкид випадкової величини щодо середнього значення. Для поняття сутності дисперсії розглянемо приклад. Середня заробітна плата країною становить близько 25 тисяч рублів. Звідки береться ця цифра? Швидше за все, складаються всі зарплати та поділяються на кількість працівників. У разі дуже велика дисперсія (мінімальна зарплата близько 4 тис. крб., а максимальна - близько 100 тис. крб.). Якби зарплата у всіх була однаковою, то дисперсія дорівнювала б нулю, і розкиду не було б.

Дисперсією дискретної випадкової величиниXназивають математичне очікування квадрата різниці випадкової величини та її математичного очікування:

D = M [((X - M(X)) 2]

Використовуючи визначення математичного очікування для обчислення дисперсії, одержуємо формулу:

D = S (xi - M (X)) 2 · pi

Дисперсія має розмірність квадрата випадкової величини. У тих випадках, коли потрібно мати числову характеристику розсіювання можливих значень у тій самій розмірності, що й сама випадкова величина, використовують середнє квадратичне відхилення.

Середнім квадратичним відхиленнямДовільної величини називають корінь квадратний з її дисперсії.

Середнє квадратичне відхилення є міра розсіювання значень випадкової величини при її математичному очікуванні.

приклад.

Закон розподілу випадкової величини Х заданий такою таблицею:

Знайти її математичне очікування, дисперсію та середнє квадратичне відхилення .

Використовуємо наведені вище формули:

М(Х) = 1 · 0,1 + 2 · 0,4 + 4 · 0,4 + 5 · 0,1 = 3

D = (1-3) 2 · 0,1 + (2 - 3) 2 · 0,4 + (4 - 3) 2 · 0,4 + (5 - 3) 2 · 0,1 = 1,6

приклад.

У грошовій лотереї розігрується 1 виграш в 1000 рублів, 10 виграшів по 100 рублів і 100 виграшів по 1 рублю при загальній кількості квитків 10000. Складіть закон розподілу випадкового виграшу Х для власника одного .

X 1 = 1000, Х 2 = 100, Х 3 = 1, Х 4 = 0,

Р 1 = 1/10000 = 0,0001, Р 2 = 10/10000 = 0,001, Р 3 = 100/10000 = 0,01, Р 4 = 1 - (Р 1 + Р 2 + Р 3) = 0,9889 .

Результати помістимо до таблиці:

Математичне очікування - сума парних творів значення випадкової величини з їхньої ймовірність. Для цієї задачі його доцільно обчислити за формулою

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 рубля.

Здобули справжню «справедливу» ціну квитка.

D = S (xi - M (X)) 2 · pi = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Функція розподілу безперервних випадкових величин

Величину, яка в результаті випробування набуде одного можливого значення (при цьому заздалегідь невідоме яке), називається випадковою величиною. Як говорилося вище, випадкові величини бувають дискретні (перервні) та безперервні.

Дискретною називають випадкову величину, яка приймає окремі один від одного можливі значення з певними ймовірностями, які можна пронумерувати.

Безперервною називають випадкову величину, яка може набувати всіх значень деякого кінцевого або нескінченного інтервалу.

Досі ми обмежувалися лише одним “різновидом” випадкових величин - дискретних, тобто. які приймають кінцеві значення.

Але теорія і практика статистики вимагають використовувати поняття безперервної випадкової величини - яка допускає будь-які числові значення, з якогось інтервалу.

Закон розподілу безперервної випадкової величини зручно ставити за допомогою так званої функції ймовірності. f(х). Імовірність Р (a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

Р (a< X < b) = ∫ f(x) dx

Графік функції f(х) називається кривою розподілу. Геометрично ймовірність попадання випадкової величини в проміжок (a; b) дорівнює площі відповідної криволінійної трапеції, обмеженої кривої розподілу, віссю Ох і прямими х = а, х = b.

P(a£X

Якщо від складного події відняти кінцеве чи лічильне безліч, ймовірність настання нової події залишиться незмінною.

Функція f(x) - числова скалярна функція дійсного аргументу x називається щільністю ймовірності, і існує в точці x, якщо в цій точці існує межа:

Властивості щільності ймовірності:

  1. Щільність ймовірності є невід'ємною функцією, тобто f(x) ≥ 0

(якщо всі значення випадкової величини Х укладені у проміжку (a;b), то останнє

рівність можна записати у вигляді f (x) dx = 1).

Розглянемо тепер функцію F(х) = Р(Х< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

безперервної випадкової величини Х, то F(х) = f(x) dx = 1).

З останньої рівності випливає, що f(x) = F"(x)

Іноді функцію f(x) називають диференціальною функцією розподілу ймовірності, а функцію F(x) – інтегральною функцією розподілу ймовірності.

Відзначимо найважливіші властивості функції розподілу ймовірності:

  1. F(х) - незменшувальна функція.
  2. F(-∞) = 0.
  3. F(+∞) = 1.

Поняття функції розподілу є центральним теоретично ймовірностей. Використовуючи це, можна дати інше визначення безперервної випадкової величини. Випадкова величина називається безперервною, якщо її інтегральна функція розподілу F(х) безперервна.

Числові характеристики безперервних випадкових величин

Математичне очікування, дисперсія та інші параметри будь-яких випадкових величин практично завжди обчислюються за формулами, що випливають із закону розподілу.

Для безперервної випадкової величини математичне очікування обчислюється за такою формулою:

М(Х) = ∫ x · f (x) dx

Дисперсія:

D(X) = ∫ ( x -М(Х)) 2 f(x) dx або D(X) = ∫ x 2 f(x) dx - (М(Х)) 2

2. Лінійна регресія

Нехай складові Х та Y двовимірної випадкової величини (Х, Y) залежні. Вважатимемо, що одну з них можна приблизно представити як лінійну функцію іншої, наприклад

Y ≈ g(Х) = α + βХ, та визначимо параметри α та β за допомогою методу найменших квадратів.

Визначення. Функція g(Х) = α + βХ називається найкращим наближенням Y у сенсі методу найменших квадратів, якщо математичне очікування М(Y - g(Х)) 2 набуває найменшого можливого значення; функцію g(Х) називають середньоквадратичною регресією Y на Х.

ТеоремаЛінійна середня квадратична регресія Y на Х має вигляд:

де - Коефіцієнт кореляції Х і Y.

Коефіцієнти рівняння.

Можна перевірити, що за цих значень функція функція F(α, β)

F(α, β ) = M(Y - α - βX)² має мінімум, що доводить затвердження теореми.

Визначення. Коефіцієнт називається коефіцієнтом регресії Y на Х, а пряма - - прямої середньоквадратичної регресії Y на Х.

Підставивши координати стаціонарної точки на рівність, можна знайти мінімальне значення функції F(α, β), рівне Ця величина називається залишковою дисперсією Y щодо Х і характеризує величину помилки, яка допускається при заміні Y на

g(Х) = α+βХ. При залишкова дисперсія дорівнює 0, тобто рівність не наближеним, а точним. Отже, при Y та Х пов'язані лінійною функціональною залежністю. Аналогічно можна отримати пряму середньоквадратичну регресію Х на Y:

і залишкову дисперсію Х щодо Y. При обидві прямі регресії збігаються. Зіставивши рівняння регресії У на Х і Х на У і розв'язавши систему з рівнянь, можна знайти точку перетину прямих регресії - точку з координатами (т х, т у), звану центром спільного розподілу величин Х та Y.

Алгоритм складання рівнянь регресії розглянемо з підручника В. Є. Гмурмана «Теорія ймовірності та математична статистика» 256.

1) Скласти розрахункову таблицю, де будуть записані номери елементів вибірки, варіанти вибірки, їх квадрати і твір.

2) Обчислити суму за всіма стовпцями, крім номера.

3) Обчислити середні значення кожної величини, дисперсії і середньо квадратичні відхилення.

5) Перевірити гіпотезу про існування зв'язку між Х та У.

6) Скласти рівняння обох ліній регресії та зобразити графіки цих рівнянь.

Кутовий коефіцієнт прямої лінії регресії У на Х - це вибірковий коефіцієнт регресії

Коефіцієнт b =

Отримаємо шукане рівняння лінії регресії У на Х:

У = 0,202 Х + 1,024

Аналогічно рівняння регресії Х на У:

Кутовий коефіцієнт прямої лінії регресії У на Х - це вибірковий коефіцієнт регресії pxy:

Коефіцієнт b =

Х = 4,119У – 3,714

3. Нелінійна регресія

Якщо між економічними явищами існують нелінійні співвідношення, вони виражаються з допомогою відповідних нелінійних функцій.

Розрізняють два класи нелінійних регресій:

1. Регресії, нелінійні щодо включених в аналіз пояснюючих змінних, але лінійні за параметрами, що оцінюються, наприклад:

Поліноми різних ступенів

Рівностороння гіпербола -;

Напівлогарифмічна функція - .

2. Регресії, нелінійні за оцінюваними параметрами, наприклад:

Ступінна -;

Показова -;

Експонентна - .

Регресії нелінійні за включеними змінними призводять до лінійного вигляду простою заміною змінних, а подальша оцінка параметрів проводиться за допомогою методу найменших квадратів. Розглянемо деякі функції.

Парабола другого ступеня наводиться до лінійного виду за допомогою заміни: . В результаті приходимо до двофакторного рівняння, оцінка параметрів якого за допомогою Методу найменших квадратів призводить до системи рівнянь:

Парабола другого ступеня зазвичай застосовується у випадках, коли для певного інтервалу значень фактора змінюється характер зв'язку ознак, що розглядаються: прямий зв'язок змінюється на зворотний або зворотний на пряму.

Рівностороння гіпербола може бути використана для характеристики зв'язку питомих витрат сировини, матеріалів, палива від обсягу продукції, що випускається, часу обігу товарів від величини товарообігу. Класичним її прикладом є крива Філіпса, що характеризує нелінійне співвідношення між нормою безробіття. xта відсотком приросту заробітної плати y.

Гіперболу наводиться до лінійного рівняння простою заміною: . Також можна використовувати метод найменших квадратів для складання системи лінійних рівнянь.

Аналогічно призводять до лінійного виду залежності: , та інші.

Рівностороння гіпербола та напівлогарифмічна крива використовують для опису кривої Енгеля (математичний опис взаємозв'язку частки витрат на товари тривалого користування та загальних сум витрат (або доходів)). Рівняння, у яких входять, застосовують у дослідженнях врожайності, трудомісткості сільськогосподарського виробництва.

4. Множинна регресія

Множинна регресія - рівняння зв'язку з кількома незалежними змінними:

де – залежна змінна (результативна ознака);

Незалежні змінні (чинники).

Для побудови рівняння множинної регресії найчастіше використовуються такі функції:

лінійна -

статечна -

експонента -

гіпербола -.

Можна використовувати інші функції, що приводяться до лінійного вигляду.

Для оцінки параметрів рівняння множинної регресії застосовують метод найменших квадратів (МНК). Для лінійних рівнянь та нелінійних рівнянь, що наводяться до лінійних, будується наступна система нормальних рівнянь, вирішення якої дозволяє отримати оцінки параметрів регресії:

Для її вирішення може бути застосований метод визначників:

де – визначник системи;

Приватні визначники; які утворюються шляхом заміни відповідного стовпця матриці визначника системи даними лівої частини системи.

Інший вид рівняння множинної регресії - рівняння регресії в стандартизованому масштабі, до рівняння множинної регресії в стандартизованому масштабі застосуємо МНК.

5. ВикористанняMSEXCELдля виконання регресійного аналізу

Регресійний аналіз встановлює форми залежності між випадковою величиною Y (залежною) та значеннями однієї або кількох змінних величин (незалежних), причому значення останніх вважаються точно заданими. Така залежність зазвичай визначається деякою математичною моделлю (рівнянням регресії), що містить кілька невідомих параметрів. У результаті регресійного аналізу виходячи з вибіркових даних знаходять оцінки цих параметрів, визначаються статистичні помилки оцінок чи межі довірчих інтервалів і перевіряється відповідність (адекватність) прийнятої математичної моделі експериментальним даним.

У лінійному регресійному аналізі зв'язок між випадковими величинами передбачається лінійним. У найпростішому випадку парної лінійної регресійної моделі є дві змінні Х і Y. І потрібно по n парам спостережень (X1, Y1), (X2, Y2), ..., (Xn, Yn) побудувати (підібрати) пряму лінію, звану лінією регресії, яка «найкращим чином» наближає значення, що спостерігаються. Рівняння цієї лінії y=ax+b є регресійним рівнянням. За допомогою регресійного рівняння можна передбачити очікуване значення залежної величини y відповідне заданому значенню незалежної змінної x. У випадку, коли розглядається залежність між однією залежною змінною Y і декількома незалежними X1, X2, ..., Xm, говорять про множинну лінійну регресію.

У цьому випадку регресійне рівняння має вигляд

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

де a0, a1, a2, …, am – вимагають визначення коефіцієнти регресії.

Коефіцієнти рівняння регресії визначаються за допомогою методу найменших квадратів, домагаючись мінімально можливої ​​суми квадратів розбіжностей реальних значень змінної Y та обчислених за регресійним рівнянням. Таким чином, наприклад, рівняння лінійної регресії може бути побудовано навіть у тому випадку, коли лінійний кореляційний зв'язок відсутній.

Мірою ефективності регресійної моделі є коефіцієнт детермінації R2 (R-квадрат). Коефіцієнт детермінації може набувати значення між 0 і 1 визначає, з яким ступенем точності отримане регресійне рівняння описує (апроксимує) вихідні дані. Досліджується також значимість регресійної моделі за допомогою F-критерію (Фішера) та достовірність відмінності коефіцієнтів a0, a1, a2, …, am від нуля перевіряється за допомогою критерію Стьюдента.

В Excel експериментальні дані апроксимуються лінійним рівнянням до 16 порядку:

y = a0+a1x1+a2x2+…+a16x16

Для отримання коефіцієнтів лінійної регресії можна використовувати процедура «Регресія» з пакета аналізу. Також повну інформацію про рівняння лінійної регресії надає функція Лінейн. Крім того, можуть бути використані функції НАКЛОН та ВІДРІЗОК для отримання параметрів регресійного рівняння та функція ТЕНДЕНЦІЯ та ПЕРЕДСКАЗ для отримання передбачених значень Y у необхідних точках (для парної регресії).

Розглянемо докладно застосування функції ЛІНІЙН (відомі_y, [відомі_x], [константа], [статистика]): відомі_у - діапазон відомих значень залежного параметра Y. У парному регресійному аналізі може мати будь-яку форму; у множині може бути рядком чи стовпцем; Відомі - діапазон відомих значень одного або декількох незалежних параметрів. Повинен мати ту саму форму, що і діапазон Y (для кількох параметрів – відповідно кілька стовпців або рядків); константа – логічний аргумент. Якщо виходячи з практичного сенсу завдання регресійного аналізу необхідно, щоб лінія регресії проходила через початок координат, тобто вільний коефіцієнт дорівнював 0, значення цього аргументу слід покласти рівним 0 (або «брехня»). Якщо значення належить 1 (або «істина») або опущено, то вільний коефіцієнт обчислюється звичайним чином; статистика – логічний аргумент. Якщо значення покладено 1 (або «істина»), додатково повертається регресійна статистика (див таблицю), яка використовується для оцінки ефективності і значущості моделі. У загальному випадку для парної регресії y=ax+b результат застосування функції Лінейн має вигляд:

Таблиця. Вивідний діапазон функції ЛІНІЙН для парного регресійного аналізу

У разі множинного регресійного аналізу для рівняння y=a0+a1x1+a2x2+…+amxm у першому рядку виводяться коефіцієнти am,…,a1,а0, у другому - стандартні помилки цих коефіцієнтів. У 3-5 рядках крім перших двох стовпців, заповнених регресійної статистикою, буде отримано значення #Н/Д.

Вводити функцію Лінейн слід як формулу масиву, виділивши спочатку масив потрібного розміру для результату (m+1 стовпець і 5 рядків, якщо потрібна регресійна статистика) і завершивши введення формули натисканням CTRL+SHIFT+ENTER.

Результат для нашого прикладу:

Крім цього, у програмі є вбудована функція - Аналіз даних на вкладці Дані.

За допомогою неї можна також виконувати регресійний аналіз:

На слайді – результат регресійного аналізу, виконаного за допомогою аналізу даних.

ВИСНОВОК ПІДСУМКІВ

Регресійна статистика

Множинний R

R-квадрат

Нормований R-квадрат

Стандартна помилка

Спостереження

Дисперсійний аналіз

Значення F

Регресія

Коефіцієнти

Стандартна помилка

t-статистика

P-Значення

Нижні 95%

Верхні 95%

Нижні 95,0%

Верхні 95,0%

Y-перетин

Змінна X 1

Рівняння регресії, які ми дивилися раніше, також побудовані в MS Excel. Для їх виконання спочатку будується точкова діаграма, потім через контекстне меню вибираємо - Додати лінію тренда. У новому вікні ставимо галочки – Показувати рівняння на діаграмі та помістити на діаграму величину достовірності апроксимації (R^2).

Література:

  1. Теорія ймовірностей та математична статистика. Гмурман В. Є. Навчальний посібник для вузів. - Вид. 10-ті, стер. - М: Вищ. шк., 2010. – 479с.
  2. Вища математика у вправах та завданнях. Навчальний посібник для вузів / Данко П. Є., Попов А. Г., Кожевнікова Т. Я., Данко С. П. У 2 ч. – Вид. 6-е, стер. – М.: ТОВ «Видавництво Онікс»: ТОВ «Видавництво «Світ та освіта», 2007. – 416 с.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - Деякі відомості про регресійний аналіз

Поняття регресії. Залежність між змінними величинами xі yможе бути описана різними способами. Зокрема, будь-яку форму зв'язку можна виразити рівнянням загального виду , де yрозглядається як залежна змінна, або функціївід іншої – незалежної змінної величини x, яка називається аргументом. Відповідність між аргументом та функцією може бути задана таблицею, формулою, графіком тощо. Зміна функції в залежності від зміни одного або кількох аргументів називається регресією. Усі засоби, які застосовуються для опису кореляційних зв'язків, становить зміст регресійного аналізу.

Для вираження регресії служать кореляційні рівняння, або рівняння регресії, емпіричні та теоретично обчислені ряди регресії, їх графіки, які називаються лініями регресії, а також коефіцієнти лінійної та нелінійної регресії.

Показники регресії виражають кореляційний зв'язок двосторонньо, враховуючи зміну усереднених значень ознаки Yпри зміні значень x iознаки X, і, навпаки, показують зміну середніх значень ознаки Xза зміненими значеннями y iознаки Y. Виняток становлять часові ряди, чи ряди динаміки, що свідчать про зміну ознак у часі. Регресія таких лав є односторонньою.

Різних форм та видів кореляційних зв'язків багато. Завдання зводиться до того, щоб у кожному конкретному випадку виявити форму зв'язку та висловити її відповідним кореляційним рівнянням, що дозволяє передбачити можливі зміни однієї ознаки Yна підставі відомих змін іншого X, пов'язаного з першим кореляційним.

12.1 Лінійна регресія

Рівняння регресії.Результати спостережень, проведених над тим чи іншим біологічним об'єктом за кореляційно пов'язаними ознаками xі y, можна зобразити точками на площині, побудувавши систему прямокутних координат. В результаті виходить деяка діаграма розсіювання, що дозволяє судити про форму і тісноту зв'язку між ознаками, що варіюють. Досить часто цей зв'язок виглядає у вигляді прямої або може бути апроксимований прямою лінією.

Лінійна залежність між змінними xі yописується рівнянням загального виду , де a, b, c, d,… – параметри рівняння, що визначають співвідношення між аргументами x 1 , x 2 , x 3 , …, x mта функцій.

У практиці враховують не всі можливі, а лише деякі аргументи, у найпростішому випадку – лише один:

У рівнянні лінійної регресії (1) a- вільний член, а параметр bвизначає нахил лінії регресії щодо осей прямокутних координат. В аналітичній геометрії цей параметр називають кутовим коефіцієнтом, а в біометрії – коефіцієнтом регресії. Наочне уявлення про цей параметр і положення ліній регресії Yпо Xі Xпо Yу системі прямокутних координат дає рис.1.

Рис. 1 Лінії регресії Y X і X Y у системі

прямокутних координат

Лінії регресії, як показано на рис.1, перетинаються в точці О (,), що відповідає середнім арифметичним значенням кореляційно пов'язаних один з одним ознак Yі X. При побудові графіків регресії по осі абсцис відкладають значення незалежної змінної X, а по осі ординат – значення залежної змінної, або функції Y. Лінія АВ, що проходить через точку О(,) відповідає повній (функціональній) залежності між змінними величинами Yі Xколи коефіцієнт кореляції . Чим сильніший зв'язок між Yі X, Тим ближчі лінії регресії до АВ, і, навпаки, чим слабкіший зв'язок між цими величинами, тим більше віддаленими виявляються лінії регресії від АВ. За відсутності зв'язок між ознаками лінії регресії виявляються під прямим кутом стосовно друг до друга і .

Оскільки показники регресії виражають кореляційний зв'язок двосторонньо, рівняння регресії (1) слід записувати так:

За першою формулою визначають усереднені значення за зміни ознаки Xна одиницю міри, по другий - усереднені значення при зміні на одиницю міри ознаки Y.

Коефіцієнт регресії.Коефіцієнт регресії показує, наскільки в середньому величина однієї ознаки yзмінюється за зміни на одиницю заходу іншого, кореляційно пов'язаного з Yознаки X. Цей показник визначають за формулою

Тут значення sмножать на розміри класових інтервалів λ , якщо їх знаходили за варіаційними рядами або кореляційними таблицями.

Коефіцієнт регресії можна обчислити минаючи розрахунок середніх квадратичних відхилень s yі s xза формулою

Якщо ж коефіцієнт кореляції невідомий, коефіцієнт регресії визначають так:

Зв'язок між коефіцієнтами регресії та кореляції.Порівнюючи формули (11.1) (тема 11) і (12.5), бачимо: в їх чисельнику одна й та сама величина, що вказує на наявність зв'язку між цими показниками. Цей зв'язок виражається рівністю

Таким чином, коефіцієнт кореляції дорівнює середній геометричній з коефіцієнтів b yxі b xy. Формула (6) дозволяє, по-перше, за відомими значеннями коефіцієнтів регресії b yxі b xyвизначати коефіцієнт регресії R xy, а по-друге, перевіряти правильність розрахунку цього показника кореляційного зв'язку R xyміж варіюючими ознаками Xі Y.

Як і коефіцієнт кореляції, коефіцієнт регресії характеризує лише лінійний зв'язок і супроводжується знаком плюс при позитивному та знаком мінус при негативному зв'язку.

Визначення параметрів лінійної регресії.Відомо, що сума квадратів відхилень варіант x iвід середньої є величина найменша, тобто ця теорема становить основу методу найменших квадратів. Щодо лінійної регресії [див. формулу (1)] на вимогу цієї теореми задовольняє деяка система рівнянь, званих нормальними:

Спільне вирішення цих рівнянь щодо параметрів aі bпризводить до наступних результатів:

;

;

, звідки в.

Враховуючи двосторонній характер зв'язку між змінними Yі Xформулу для визначення параметра аслід висловити так:

та . (7)

Параметр b, або коефіцієнт регресії, визначають за такими формулами:

Побудова емпіричних рядів регресії.За наявності великої кількості спостережень регресійний аналіз починається з побудови емпіричних рядів регресії. Емпіричний ряд регресіїутворюється шляхом обчислення за значеннями однієї варіюючої ознаки Xсередніх значень іншого, пов'язаного кореляційно з Xознаки Y. Іншими словами, побудова емпіричних рядів регресії зводиться до знаходження групових середніх і з відповідних значень ознак Y і X.

Емпіричний ряд регресії – це подвійний ряд чисел, які можна зобразити точками на площині, та був, з'єднавши ці точки відрізками прямий, отримати емпіричну лінію регресії. Емпіричні ряди регресії, особливо їх графіки, звані лініями регресіїдають наочне уявлення про форму і тісність кореляційної залежності між варіюючими ознаками.

Вирівнювання емпіричних рядів регресії.Графіки емпіричних рядів регресії виявляються, як правило, не такими, що плавно йдуть, а ламаними лініями. Це пояснюється тим, що поряд з головними причинами, що визначають загальну закономірність у мінливості ознак, що корелює, на їх величині позначається вплив численних другорядних причин, що викликають випадкові коливання вузлових точок регресії. Щоб виявити основну тенденцію (тренд) сполученої варіації корелюваних ознак, потрібно замінити ламані лінії на гладкі лінії регресії, що плавно йдуть. Процес заміни ламаних ліній на плавно йдуть вирівнюванням емпіричних рядіві ліній регресій.

Графічний спосіб вирівнювання.Це найпростіший спосіб, що не вимагає обчислювальної роботи. Його суть зводиться до наступного. Емпіричний ряд регресії зображують як графіка у системі прямокутних координат. Потім візуально намічаються середні точки регресії, якими з допомогою лінійки чи лекала проводять суцільну лінію. Недолік цього способу очевидний: він не виключає впливу індивідуальних властивостей дослідника на результати вирівнювання емпіричних ліній регресії. Тому в тих випадках, коли необхідна більш висока точність при заміні ламаних ліній регресії на плавні, використовують інші способи вирівнювання емпіричних рядів.

Спосіб ковзної середньої.Суть цього способу зводиться до послідовного обчислення середніх арифметичних двох або трьох сусідніх членів емпіричного ряду. Цей спосіб особливо зручний у тих випадках, коли емпіричний ряд представлений великою кількістю членів, так що втрата двох з них - крайніх, що неминуче при цьому способі вирівнювання, помітно не вплине на його структуру.

Метод найменших квадратів.Цей метод запропоновано на початку ХІХ століття А.М. Лежандром та незалежно від нього К. Гауссом. Він дозволяє найточніше вирівнювати емпіричні ряди. Цей метод, як було показано вище, заснований на припущенні, що сума квадратів відхилень варіант x i від їх середньої є величина мінімальна, тобто. Звідси і назва методу, що застосовується не тільки в екології, а й у техніці. Метод найменших квадратів об'єктивний і універсальний, його застосовують у різних випадках при відшуканні емпіричних рівнянь рядів регресії та визначенні їх параметрів.

p align="justify"> Вимога методу найменших квадратів полягає в тому, що теоретичні точки лінії регресії повинні бути отримані таким чином, щоб сума квадратів відхилень від цих точок для емпіричних спостережень y iбула мінімальною, тобто.

Обчислюючи відповідно до принципів математичного аналізу мінімум цього виразу та певним чином перетворюючи його, можна отримати систему так званих нормальних рівнянь, В яких невідомими величинами виявляються шукані параметри рівняння регресії, а відомі коефіцієнти визначаються емпіричними величинами ознак, зазвичай сумами їх значень та їх перехресних творів.

Множинна лінійна регресія.Залежність між кількома змінними величинами прийнято виражати рівнянням множинної регресії, яка може бути лінійноїі нелінійною. У найпростішому вигляді множинна регресія виражається рівнянням із двома незалежними змінними величинами ( x, z):

де a– вільний член рівняння; bі c- Параметри рівняння. Для знаходження параметрів рівняння (10) (за способом найменших квадратів) застосовують таку систему нормальних рівнянь:

Ряди динаміки. Вирівнювання рядів.Зміна ознак у часі утворює так звані тимчасові рядиабо ряди динаміки. Характерною особливістю таких рядів є те, що як незалежна змінна X тут завжди виступає фактор часу, а залежною Y – ознака, що змінюється. Залежно від рядів регресії залежність між змінними X і Y носить односторонній характер, оскільки чинник часу залежить від мінливості ознак. Незважаючи на зазначені особливості, ряди динаміки можна уподібнити до рядів регресії та обробляти їх одними і тими ж методами.

Як і лави регресії, емпіричні лави динаміки несуть на собі вплив не тільки основних, а й численних другорядних (випадкових) факторів, що загасають ту головну тенденцію у мінливості ознак, яку мовою статистики називають трендом.

Аналіз рядів динаміки починається з виявлення форми тренду. Для цього часовий ряд зображують у вигляді лінійного графіка у системі прямокутних координат. При цьому по осі абсцис відкладають тимчасові точки (роки, місяці та інші одиниці часу), а по осі ординат – значення залежної змінної Y. За наявності лінійної залежності між змінними X та Y (лінійного тренду) для вирівнювання рядів динаміки способом найменших квадратів найбільш підходящим є рівняння регресії у вигляді відхилень членів ряду залежної змінної Y від середньої арифметичної низки незалежної змінної X:

Тут – параметр лінійної регресії.

Числові характеристики рядів динаміки.До основних узагальнюючих числових характеристик рядів динаміки відносять середню геометричнуі близьку до неї середню арифметичну величини. Вони характеризують середню швидкість, з якою змінюється величина залежної змінної за певні періоди часу:

Оцінкою мінливості членів низки динаміки служить середнє квадратичне відхилення. При виборі рівнянь регресії для опису рядів динаміки враховують форму тренду, яка може бути лінійною (або приведена до лінійної) та нелінійної. Про правильність вибору рівняння регресії зазвичай судять за подібністю емпірично спостережених і обчислених значень залежною змінною. Більш точним у вирішенні цього завдання є метод дисперсійного аналізу регресії (тема 12 п.4).

Кореляція рядів динаміки.Нерідко доводиться зіставляти динаміку тимчасових рядів, що паралельно йдуть, пов'язаних один з одним деякими загальними умовами, наприклад з'ясувати зв'язок між виробництвом сільськогосподарської продукції і зростанням поголів'я худоби за певний проміжок часу. У таких випадках характеристикою зв'язку між змінними X та Y служить коефіцієнт кореляції R xy (за наявності лінійного тренду).

Відомо, що тренд рядів динаміки, як правило, затушовується коливаннями членів ряду залежної змінної Y. Звідси виникає завдання двоякого роду: вимірювання залежності між рядами, що зіставляються, не виключаючи тренд, і вимірювання залежності між сусідніми членами одного і того ж ряду, виключаючи тренд. У першому випадку показником тісноти зв'язку між зіставлюваними рядами динаміки служить коефіцієнт кореляції(якщо зв'язок лінійний), у другому – коефіцієнт автокореляції. Ці показники мають різні значення, хоч і обчислюються за тими самими формулами (див. тему 11).

Неважко помітити, що на значенні коефіцієнта автокореляції позначається мінливість членів ряду залежної змінної: що менше члени ряду відхиляються від тренда, то вище коефіцієнт автокореляції, і навпаки.

За наявності кореляційного зв'язку між факторними і результативними ознаками лікарям нерідко доводиться встановлювати, яку величину може змінитися значення однієї ознаки за зміни іншого на загальноприйняту чи встановлену самим дослідником одиницю виміру.

Наприклад, як зміниться маса тіла школярів 1-го класу (дівчат або хлопчиків), якщо зростання їх збільшиться на 1 см. З цією метою застосовується метод регресійного аналізу.

Найчастіше метод регресійного аналізу застосовується розробки нормативних шкал і стандартів фізичного розвитку.

  1. Визначення регресії. Регресія - функція, що дозволяє за середньою величиною однієї ознаки визначити середню величину іншої ознаки, що кореляційно пов'язана з першою.

    З цією метою застосовується коефіцієнт регресії та низку інших параметрів. Наприклад, можна розрахувати кількість простудних захворювань у середньому за певних значень середньомісячної температури повітря в осінньо-зимовий період.

  2. Визначення коефіцієнта регресії. p align="justify"> Коефіцієнт регресії - абсолютна величина, на яку в середньому змінюється величина однієї ознаки при зміні іншої пов'язаної з ним ознаки на встановлену одиницю виміру.
  3. Формула коефіцієнта регресії. R у/х = r ху x (σ у / σ x)
    де R у/г - коефіцієнт регресії;
    r ху - коефіцієнт кореляції між ознаками х та у;
    (σ у та σ x) - середньоквадратичні відхилення ознак x та у.

    У нашому прикладі;
    σ х = 4,6 (середньоквадратичне відхилення температури повітря в осінньо-зимовий період;
    σ у = 8,65 (середньоквадратичне відхилення числа інфекційно-застудних захворювань).
    Таким чином, R у/г - коефіцієнт регресії.
    R у/г = -0,96 x (4,6 / 8,65) = 1,8, тобто. при зниженні середньомісячної температури повітря (x) на 1 градус середня кількість інфекційно-простудних захворювань у осінньо-зимовий період змінюватиметься на 1,8 випадків.

  4. Рівняння регресії. у = М у + R y/x (х - М x)
    де у - середня величина ознаки, яку слід визначати за зміни середньої величини іншої ознаки (х);
    х - відома середня величина іншої ознаки;
    R y/x – коефіцієнт регресії;
    М х, М у - відомі середні величини ознак x та у.

    Наприклад, середню кількість інфекційно-простудних захворювань можна визначити без спеціальних вимірювань при будь-якому середньому значенні середньомісячної температури повітря (х). Так, якщо х = - 9 °, R у / х = 1,8 захворювань, М х = -7 °, М у = 20 захворювань, то у = 20 + 1,8 х (9-7) = 20 + 3 6 = 236 захворювань.
    Дане рівняння застосовується у разі прямолінійного зв'язку між двома ознаками (х та у).

  5. Призначення рівняння регресії. Рівняння регресії використовують для побудови лінії регресії. Остання дозволяє без спеціальних вимірювань визначити будь-яку середню величину (у) однієї ознаки, якщо змінюється величина (х) іншої ознаки. За цими даними будується графік - лінія регресії, за якою можна визначити середню кількість простудних захворювань за будь-якого значення середньомісячної температури в межах між розрахунковими значеннями числа простудних захворювань.
  6. Сигма регресії (формула).
    де R R/х - сигма (середньоквадратичне відхилення) регресії;
    σ у - середньоквадратичне відхилення ознаки у;
    r ху - коефіцієнт кореляції між ознаками х та у.

    Так, якщо у - середньоквадратичне відхилення числа простудних захворювань = 8,65; r ху - коефіцієнт кореляції між числом простудних захворювань (у) та середньомісячною температурою повітря в осінньо-зимовий період (х) дорівнює - 0,96, то

  7. Призначення сигми регресії. Дає характеристику міри різноманітності результативної ознаки (у).

    Наприклад, характеризує різноманітність числа простудних захворювань за певного значення середньомісячної температури повітря в осінньо-зимовий період. Так, середня кількість простудних захворювань за температури повітря х 1 = -6° може коливатися не більше від 15,78 захворювань до 20,62 захворювань.
    При х 2 = -9 ° середня кількість простудних захворювань може коливатися в межах від 21,18 до 26,02 захворювань і т.д.

    Сигма регресії використовується при побудові шкали регресії, яка відбиває відхилення величин результативної ознаки від середнього значення, відкладеного на лінії регресії.

  8. Дані, необхідні для розрахунку та графічного зображення шкали регресії
    • коефіцієнт регресії - R у/г;
    • рівняння регресії - у = М у + R у/г (х-М x);
    • сигма регресії - Rx/y
  9. Послідовність розрахунків та графічного зображення шкали регресії.
    • визначити коефіцієнт регресії за такою формулою (див. п. 3). Наприклад, слід визначити, наскільки в середньому змінюватиметься маса тіла (у певному віці залежно від статі), якщо середнє зростання зміниться на 1 см.
    • за формулою рівняння регресії (див. п. 4) визначити, якою буде в середньому, наприклад, маса тіла (у, у 2, у 3...)* для певного значення росту (х, х2, х3...) .
      ________________
      * Величину "у" слід розраховувати не менше ніж для трьох відомих значень "х".

      При цьому середні значення маси тіла та росту (М х, і М у) для певного віку та статі відомі

    • обчислити сигму регресії, знаючи відповідні величини у і r ху і підставляючи їх значення у формулу (див. п. 6).
    • на підставі відомих значень х 1 , х 2 , х 3 і відповідних їм середніх значень у 1 , у 2 у 3 а також найменших (у - σ rу / х) і найбільших (у + σ rу / х) значень (у) побудувати шкалу регресії.

      Для графічного зображення шкали регресії на графіці спочатку відзначаються значення x, x2, x3 (вісь ординат), тобто. будується лінія регресії, наприклад залежності маси тіла (у) від зростання (х).

      Потім у відповідних точках у 1 y 2 y 3 відзначаються числові значення сигми регресії, тобто. на графіку знаходять найменше та найбільше значення у 1 , y 2 , y 3 .

  10. Практичне використання шкали регресії. Розробляються нормативні шкали та стандарти, зокрема з фізичного розвитку. За стандартною шкалою можна надати індивідуальну оцінку розвитку дітей. При цьому фізичний розвиток оцінюється як гармонійний, якщо, наприклад, при певному зростанні маса тіла дитини знаходиться в межах однієї сигми регресії до середньої розрахункової одиниці маси тіла (у) для даного росту (x) (± 1 σ Ry/x).

    Фізичний розвиток вважається дисгармонічним за масою тіла, якщо маса тіла дитини для певного росту знаходиться в межах другої сигми регресії: (± 2 σ Ry/x)

    Фізичний розвиток буде різко дисгармонійним як за рахунок надлишкової, так і за рахунок недостатньої маси тіла, якщо маса тіла для певного зростання знаходиться в межах третьої сигми регресії (± 3 σ Ry/x).

За результатами статистичного дослідження фізичного розвитку хлопчиків 5 років відомо, що їхнє середнє зростання (х) дорівнює 109 см, а середня маса тіла (у) дорівнює 19 кг. Коефіцієнт кореляції між зростанням і масою тіла становить +0,9, середні відхилення квадратичні представлені в таблиці.

Потрібно:

  • розрахувати коефіцієнт регресії;
  • за рівнянням регресії визначити, якою буде очікувана маса тіла хлопчиків 5 років при зростанні, що дорівнює х1 = 100 см, х2 = 110 см, х3 = 120 см;
  • розрахувати сигму регресії, побудувати шкалу регресії, результати її вирішення подати графічно;
  • зробити відповідні висновки.

Умову завдання та результати її вирішення представлені у зведеній таблиці.

Таблиця 1

Умови завдання Результати вирішення задачі
рівняння регресії сигма регресії шкала регресії (очікувана маса тіла (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Зростання (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Маса тіла (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Рішення.

Висновок.Таким чином, шкала регресії в межах розрахункових величин маси тіла дозволяє визначити її за будь-якого іншого значення зростання або оцінити індивідуальний розвиток дитини. Для цього слід повернути перпендикуляр до лінії регресії.

  1. Власов В.В. Епідеміологія. – М.: ГЕОТАР-МЕД, 2004. – 464 с.
  2. Лісіцин Ю.П. Громадське здоров'я та охорона здоров'я. Підручник для вишів. – М.: ГЕОТАР-МЕД, 2007. – 512 с.
  3. Медик В.А., Юр'єв В.К. Курс лекцій з громадського здоров'я та охорони здоров'я: Частина 1. Суспільне здоров'я. – М.: Медицина, 2003. – 368 с.
  4. Міняєв В.А., Вишняков Н.І. та ін Соціальна медицина та організація охорони здоров'я (Керівництво у 2 томах). – СПб, 1998. –528 с.
  5. Кучеренко В.З., Агарков Н.М. та ін. Соціальна гігієна та організація охорони здоров'я (Навчальний посібник) – Москва, 2000. – 432 с.
  6. С. Гланц. Медико-біологічна статистика Пер з англ. – М., Практика, 1998. – 459 с.

У статистичному моделюванні регресійний аналіз є дослідження, що застосовуються з метою оцінки взаємозв'язку між змінними. Цей математичний метод включає безліч інших методів для моделювання та аналізу декількох змінних, коли основна увага приділяється взаємозв'язку між залежною змінною і однією або декількома незалежними. Говорячи конкретніше, регресійний аналіз допомагає зрозуміти, як змінюється типове значення залежної змінної, якщо одне із незалежних змінних змінюється, тоді як інші незалежні змінні залишаються фіксованими.

У всіх випадках цільова оцінка є функцією незалежних змінних і називається функцією регресії. У регресійному аналізі також цікавить характеристика зміни залежної змінної як функції регресії, яка може бути описана за допомогою розподілу ймовірностей.

Завдання регресійного аналізу

Даний статистичний метод дослідження широко використовується для прогнозування, де його використання має суттєву перевагу, але іноді це може призводити до ілюзії або помилкових відносин, тому рекомендується акуратно використовувати його в зазначеному питанні, оскільки, наприклад, кореляція не означає причинно-наслідкового зв'язку.

Розроблено велику кількість методів для проведення регресійного аналізу, такі як лінійна та звичайна регресії за методом найменших квадратів, які є параметричними. Їх суть у тому, що функція регресії визначається термінами кінцевого числа невідомих параметрів, які оцінюються з даних. Непараметрична регресія дозволяє її функції лежати у певному наборі функцій, які можуть бути нескінченномірними.

Як статистичний метод дослідження, регресійний аналіз практично залежить від форми процесу генерації даних і від цього, як і ставиться до регресійного підходу. Так як справжня форма процесу даних, що генерують, як правило, невідоме число, регресійний аналіз даних часто залежить до певної міри від припущень про цей процес. Ці припущення іноді перевіряються, якщо є достатньо доступних даних. Регресійні моделі часто бувають корисними навіть тоді, коли припущення помірковано порушені, хоча вони не можуть працювати з максимальною ефективністю.

У вужчому сенсі регресія може ставитися безпосередньо до оцінці безперервних змінних відгуку, на відміну дискретних змінних відгуку, що у класифікації. Випадок безперервної вихідний змінної також називають метричною регресією, щоб відрізнити його від пов'язаних із цим проблем.

Історія

Найраніша форма регресії – це всім відомий метод найменших квадратів. Він був опублікований Лежандром в 1805 році і Гауссом в 1809. Лежандр і Гаусс застосували метод завдання визначення з астрономічних спостережень орбіти тіл навколо Сонця (в основному комети, але пізніше і знову відкриті малі планети). Гаус опублікував подальший розвиток теорії найменших квадратів у 1821 році, включаючи варіант теореми Гаусса-Маркова.

Термін «регрес» вигадав Френсіс Гальтон у ХІХ столітті, щоб описати біологічне явище. Суть у тому, що зростання нащадків від зростання предків, зазвичай, регресує вниз до нормального середнього. Для Гальтона регресія мала лише цей біологічний сенс, але пізніше його робота була продовжена Удні Йолей та Карлом Пірсоном і виведена до більш загального статистичного контексту. У роботі Йоля та Пірсона спільний розподіл змінних відгуків та пояснювальних вважається гаусовим. Це припущення було відкинуто Фішером на роботах 1922 і 1925 років. Фішер припустив, що умовний розподіл змінної відгуку є гаусовим, але спільний розподіл не повинен бути таким. У зв'язку з цим припущення Фішера ближче до формулювання Гауса 1821 року. До 1970 року іноді витрачалося до 24 годин, щоб отримати результат регресійного аналізу.

Методи регресійного аналізу продовжують залишатися областю активних досліджень. Останні десятиліття нові методи були розроблені для надійної регресії; регресії за участю корелюючих відгуків; методи регресії, що вміщають різні типи даних, що відсутні; непараметричної регресії; байєсовські методи регресії; регресії, у яких змінні прогнозуючих вимірюються з помилкою; регресії здебільшого предикторов, ніж спостережень, і навіть причинно-наслідкових висновків з регресією.

Регресійні моделі

Моделі регресійного аналізу включають такі змінні:

  • Невідомі параметри, позначені як бета, які можуть бути скаляр або вектор.
  • Незалежні змінні, X.
  • Залежні змінні, Y.

У різних галузях науки, де здійснюється застосування регресійного аналізу, використовуються різні терміни замість залежних та незалежних змінних, але у всіх випадках регресійна модель відносить Y до функцій X та β.

Наближення зазвичай оформляється як E (Y | X) = F (X, β). Для проведення регресійного аналізу має бути визначено вид функції f. Рідше вона заснована на знаннях про взаємозв'язок між Y та X, які не покладаються на дані. Якщо таке знання недоступне, то вибрано гнучку або зручну форму F.

Залежна змінна Y

Припустимо тепер, що вектор невідомих параметрів має довжину k. Для виконання регресійного аналізу користувач повинен надати інформацію про залежну змінну Y:

  • Якщо спостерігаються точки N даних виду (Y, X), де N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Якщо спостерігаються рівно N = K, а функція F є лінійною, то рівняння Y = F (X, β) можна вирішити точно, а чи не приблизно. Це зводиться до рішення набору N-рівнянь з N-невідомими (елементи β), який має єдине рішення доти, доки X лінійно незалежний. Якщо F є нелінійним, рішення може не існувати або може існувати багато рішень.
  • Найбільш поширеною є ситуація, де спостерігається N> точки до даних. У цьому випадку є достатньо інформації в даних, щоб оцінити унікальне значення для β, яке найкраще відповідає даним, і модель регресії, коли застосування до даних можна розглядати як перевизначену систему β.

У разі регресійний аналіз надає інструменти для:

  • Пошук рішення для невідомих параметрів β, які, наприклад, мінімізувати відстань між виміряним і передбаченим значенням Y.
  • За певних статистичних припущень, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри β та передбачені значення залежної змінної Y.

Необхідна кількість незалежних вимірів

Розглянемо модель регресії, яка має три невідомі параметри: β 0 , β 1 та β 2 . Припустимо, що експериментатор виконує 10 вимірювань в тому самому значенні незалежної змінної вектора X. У цьому випадку регресійний аналіз не дає унікальний набір значень. Краще, що можна зробити, оцінити середнє значення і стандартне відхилення залежної змінної Y. Аналогічно вимірюючи два різних значеннях X, можна отримати достатньо даних для регресії з двома невідомими, але не для трьох і більше невідомих.

Якщо вимірювання експериментатора проводилися за трьох різних значеннях незалежної змінної вектора X, то регресійний аналіз забезпечить унікальний набір оцінок для трьох невідомих параметрів β.

У разі загальної лінійної регресії наведене вище твердження еквівалентне вимогі, що матриця X Т X оборотна.

Статистичні припущення

Коли число вимірювань N більше, ніж число невідомих параметрів k і похибки вимірювань ε i , то, як правило, поширюється надлишок інформації, що міститься у вимірюваннях, і використовується для статистичних прогнозів щодо невідомих параметрів. Цей надлишок інформації називається ступенем свободи регресії.

Основні припущення

Класичні припущення для регресійного аналізу включають:

  • Вибірка є представником прогнозування логічного висновку.
  • Помилка є випадковою величиною із середнім значенням нуля, який є умовним на пояснюючих змінних.
  • Незалежні змінні вимірюються без помилок.
  • Як незалежних змінних (предикторів) вони лінійно незалежні, тобто неможливо висловити будь-який провісник у вигляді лінійної комбінації інших.
  • Помилки є некорельованими, тобто матриця помилок діагоналей і кожен ненульовий елемент є дисперсією помилки.
  • Дисперсія помилки постійна за спостереженнями (гомоскедастичністю). Якщо ні, можна використовувати метод зважених найменших квадратів чи інші методи.

Ці достатні умови для оцінки найменших квадратів мають необхідні властивості, зокрема ці припущення означають, що оцінки параметрів будуть об'єктивними, послідовними та ефективними, особливо при їх обліку в класі лінійних оцінок. Важливо, що фактичні дані рідко задовольняють умовам. Тобто метод використовується навіть якщо припущення не вірні. Варіація з припущень іноді може бути використана як міра, що показує, наскільки ця модель є корисною. Багато з цих припущень можуть бути пом'якшені у більш розвинених методах. Звіти статистичного аналізу, як правило, включають аналіз тестів за даними вибірки і методології для корисності моделі.

Крім того, змінні в деяких випадках посилаються на значення, які вимірюються в точкових місцях. Там можуть бути просторові тенденції та просторові автокореляції у змінних, що порушують статистичні припущення. Географічна зважена регресія – єдиний метод, який має справу з такими даними.

У лінійній регресії особливістю є те, що залежна змінна, якою є Y i являє собою лінійну комбінацію параметрів. Наприклад, у простій лінійній регресії для моделювання n-точок використовується одна незалежна змінна, x i , і два параметри, β 0 і β 1 .

При множинні лінійної регресії існує кілька незалежних змінних або їх функцій.

При випадковій вибірці з популяції параметри дозволяють отримати зразок моделі лінійної регресії.

В даному аспекті найпопулярнішим є метод найменших квадратів. За допомогою нього одержують оцінки параметрів, які мінімізують суму квадратів залишків. Такі мінімізація (що характерно саме лінійної регресії) цієї функції призводить до набору нормальних рівнянь і набору лінійних рівнянь з параметрами, які вирішуються з отриманням оцінок параметрів.

При подальшому припущенні, що помилка популяції зазвичай поширюється, дослідник може використовувати ці оцінки стандартних помилок для створення довірчих інтервалів та перевірки гіпотез про її параметри.

Нелінійний регресійний аналіз

Приклад, коли функція не є лінійною щодо параметрів, вказує на те, що сума квадратів повинна бути мінімально зведена за допомогою ітераційної процедури. Це вносить багато ускладнень, які визначають різницю між лінійними і нелінійними методами найменших квадратів. Отже, результати регресійного аналізу під час використання нелінійного методу часом непередбачувані.

Розрахунок потужності та обсягу вибірки

Тут, зазвичай, немає узгоджених методів, які стосуються числа спостережень проти числом незалежних змінних у моделі. Перше правило було запропоновано Доброю і Хардіном і виглядає як N = t^n, де N є розмір вибірки, n - число незалежних змінних, а t є числом спостережень, необхідних досягнення бажаної точності, якщо модель мала тільки одну незалежну змінну. Наприклад, дослідник будує модель лінійної регресії з використанням набору даних, що містить 1000 пацієнтів (N). Якщо дослідник вирішує, що необхідно п'ять спостережень, щоб точно визначити пряму (м), то максимальна кількість незалежних змінних, які може підтримувати модель, дорівнює 4.

Інші методи

Незважаючи на те, що параметри регресійної моделі, як правило, оцінюються з використанням методу найменших квадратів, існують і інші методи, які використовуються набагато рідше. Наприклад, це такі способи:

  • Байєсовські методи (наприклад, метод Байєса лінійної регресії).
  • Процентна регресія, що використовується для ситуацій, коли зниження відсоткових помилок вважається за доцільне.
  • Найменші абсолютні відхилення, що є стійкішим у присутності викидів, що призводять до квантильної регресії.
  • Непараметрична регресія, що вимагає великої кількості спостережень та обчислень.
  • Відстань метрики навчання, яка вивчається у пошуках значної відстані метрики у заданому вхідному просторі.

Програмне забезпечення

Усі основні статистичні пакети програмного забезпечення виконуються за допомогою найменших квадратів регресійного аналізу. Проста лінійна регресія та множинний регресійний аналіз можуть бути використані в деяких додатках електронних таблиць, а також на деяких калькуляторах. Хоча багато статистичних пакетів програмного забезпечення можуть виконувати різні типи непараметричної та надійної регресії, ці методи менш стандартизовані; Різні програмні пакети реалізують різні методи. Спеціалізоване регресійне програмне забезпечення було розроблено для використання в таких галузях як аналіз обстеження та нейровізуалізації.