Биографии Характеристики Анализ

Линеен регресионен анализ. Методи на математическата статистика

РЕЗУЛТАТИ

Таблица 8.3a. Регресионна статистика
Регресионна статистика
Множество R 0,998364
R-квадрат 0,99673
Нормализиран R-квадрат 0,996321
стандартна грешка 0,42405
Наблюдения 10

Нека първо да разгледаме горната част на изчисленията, представени в таблица 8.3a, регресионната статистика.

Стойността R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между оригиналните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в интервала.

В повечето случаи стойността на R-квадрат е между тези стойности, наречени екстремуми, т.е. между нула и едно.

Ако стойността на R-квадрата е близка до единица, това означава, че изграденият модел обяснява почти цялата променливост на съответните променливи. Обратно, стойност на R-квадрат, близка до нула, означава лошо качество на конструирания модел.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

Множество R- коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

Множество R е равно на корен квадратен от коефициента на определяне, тази стойност приема стойности в диапазона от нула до едно.

При прост линеен регресионен анализ множественото R е равно на корелационния коефициент на Пиърсън. Наистина, множественото R в нашия случай е равно на корелационния коефициент на Pearson от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия
Коефициенти стандартна грешка t-статистика
Y-пресечка 2,694545455 0,33176878 8,121757129
Променлива X 1 2,305454545 0,04668634 49,38177965
* Дадена е съкратена версия на изчисленията

Сега разгледайте средната част на изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и отместването по оста y, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) регресионни коефициенти(коефициент b).

Ако знакът при регресионен коефициент- положителен, връзката на зависимата променлива с независимата ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът при регресионен коефициент- отрицателна, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

В таблица 8.3c. са представени резултатите от изхода на остатъците. За да се появят тези резултати в справката, е необходимо да активирате отметката "Остатъци" при стартиране на инструмента "Регресия".

ОСТАТЪЧНО ТЕГЛЕНЕ

Таблица 8.3c. останки
Наблюдение Предсказаният Y останки Стандартни баланси
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голяма абсолютна стойност

Лекция 3

Регресионен анализ.

1) Числени характеристики на регресията

2) Линейна регресия

3) Нелинейна регресия

4) Множествена регресия

5) Използване на MS EXCEL за извършване на регресионен анализ

Средство за контрол и оценка – тестови задачи

1. Числени характеристики на регресията

Регресионният анализ е статистически метод за изследване на влиянието на една или повече независими променливи върху зависима променлива. Независимите променливи иначе се наричат ​​регресори или предиктори, а зависимите променливи се наричат ​​критерии. Терминологията на зависимите и независимите променливи отразява само математическата зависимост на променливите, а не връзката на причината и следствието.

Цели на регресионния анализ

  • Определяне на степента на детерминизъм на вариацията на критериалната (зависима) променлива чрез предиктори (независими променливи).
  • Прогнозиране на стойността на зависимата променлива с помощта на независимата променлива(и).
  • Определяне на приноса на отделните независими променливи към вариацията на зависимата.

Регресионният анализ не може да се използва, за да се определи дали има връзка между променливите, тъй като наличието на такава връзка е предпоставка за прилагане на анализа.

За да извършите регресионен анализ, първо трябва да се запознаете с основните понятия на статистиката и теорията на вероятностите.

Основни числени характеристики на дискретни и непрекъснати случайни величини: математическо очакване, дисперсия и стандартно отклонение.

Случайните променливи се делят на два вида:

  • Дискретни, които могат да приемат само конкретни, предварително определени стойности (например стойностите на числата в горната част на хвърлен зар или порядъчни стойности на текущия месец);
  • · непрекъснати (най-често - стойностите на някои физически величини: тегла, разстояния, температури и др.), Които според законите на природата могат да приемат всякакви стойности, поне в определен интервал.

Законът за разпределение на случайна променлива е съответствието между възможните стойности на дискретна случайна променлива и нейните вероятности, обикновено записани в таблица:

Статистическата дефиниция на вероятността се изразява чрез относителната честота на случайно събитие, т.е. намира се като съотношение на броя на случайните променливи към общия брой на случайните променливи.

Математическо очакване на дискретна случайна променливахсе нарича сбор от продуктите на стойностите на количеството хвърху вероятността на тези стойности. Математическото очакване се означава с или М(х) .

н

= М(х) = х 1 стр 1 + х 2 стр 2 +… + x n p n = С x i пи

аз=1

Дисперсията на случайна променлива по отношение на нейното математическо очакване се определя с помощта на числена характеристика, наречена дисперсия. Просто казано, дисперсията е разпространението на случайна променлива около средната стойност. За да разберете същността на дисперсията, помислете за пример. Средната заплата в страната е около 25 хиляди рубли. Откъде идва това число? Най-вероятно всички заплати се сумират и разделят на броя на служителите. В този случай има много голяма дисперсия (минималната заплата е около 4 хиляди рубли, а максималната е около 100 хиляди рубли). Ако всички имаха една и съща заплата, тогава дисперсията щеше да е нула и нямаше да има спред.

Дисперсия на дискретна случайна променливахсе нарича математическо очакване на квадрата на разликата на случайна променлива и нейното математическо очакване:

D = M [ ((X - M (X)) 2 ]

Използвайки дефиницията на математическото очакване за изчисляване на дисперсията, получаваме формулата:

D \u003d S (x i - M (X)) 2 p i

Дисперсията има размерността на квадрата на случайна променлива. В случаите, когато е необходимо да има числена характеристика на дисперсията на възможните стойности в същото измерение като самата случайна променлива, се използва стандартното отклонение.

Стандартно отклонениеслучайна променлива се нарича корен квадратен от нейната дисперсия.

Средното квадратично отклонение е мярка за дисперсията на стойностите на случайна променлива около нейното математическо очакване.

Пример.

Законът за разпределение на случайна променлива X е даден от следната таблица:

Намерете неговото математическо очакване, дисперсия и стандартно отклонение .

Използваме горните формули:

M (X) \u003d 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 \u003d 1,6

Пример.

В паричната лотария се играят 1 печалба от 1000 рубли, 10 печалби от 100 рубли и 100 печалби от 1 рубла всяка с общ брой билети 10 000. Направете закон за разпределение за случайна печалба X за собственика на един лотарен билет и определяне на математическото очакване, дисперсията и стандартното отклонение на случайна променлива.

X 1 \u003d 1000, X 2 = 100, X 3 \u003d 1, X 4 = 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889.

Поставяме резултатите в таблица:

Математическо очакване - сумата от сдвоените произведения на стойността на случайна променлива по тяхната вероятност. За този проблем е препоръчително да го изчислите по формулата

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 рубли.

Имаме наистина "справедлива" цена на билета.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Функция на разпределение на непрекъснати случайни променливи

Стойността, която в резултат на теста ще приеме една възможна стойност (не е известно предварително коя), се нарича случайна променлива. Както бе споменато по-горе, случайните променливи са дискретни (прекъснати) и непрекъснати.

Дискретна променлива е случайна променлива, която приема отделни възможни стойности с определени вероятности, които могат да бъдат номерирани.

Непрекъснатата променлива е случайна променлива, която може да приема всички стойности от някакъв краен или безкраен интервал.

До този момент се ограничихме само до една „разновидност“ на случайни променливи - дискретни, т.е. приемане на крайни стойности.

Но теорията и практиката на статистиката изискват използването на концепцията за непрекъсната случайна променлива - позволяваща всякакви числени стойности от всеки интервал.

Законът за разпределение на непрекъсната случайна променлива се определя удобно с помощта на така наречената функция на плътност на вероятността. f(x). Вероятност P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

П (а< X < b) = ∫ f(х) dx

Графиката на функцията f (x) се нарича крива на разпределение. Геометрично, вероятността случайна променлива да попадне в интервала (a; b) е равна на площта на съответния криволинеен трапец, ограничен от кривата на разпределение, оста Ox и правите линии x = a, x = b .

P(a£X

Ако крайно или изброимо множество се извади от сложно събитие, вероятността за ново събитие ще остане непроменена.

Функция f(x) - числена скаларна функция на реален аргумент x се нарича плътност на вероятността и съществува в точка x, ако в тази точка има ограничение:

Свойства на плътността на вероятността:

  1. Плътността на вероятността е неотрицателна функция, т.е. f(x) ≥ 0

(ако всички стойности на случайната променлива X са в интервала (a;b), тогава последната

равенството може да се запише като ∫ f (x) dx = 1).

Помислете сега за функцията F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

непрекъсната случайна променлива X, тогава F (x) = ∫ f(x) dx = 1).

От последното равенство следва, че f (x) = F" (x)

Понякога функцията f(x) се нарича диференциална функция на разпределение на вероятностите, а функцията F(x) се нарича функция на разпределение на кумулативната вероятност.

Отбелязваме най-важните свойства на функцията за разпределение на вероятностите:

  1. F(x) е ненамаляваща функция.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Концепцията за функция на разпределение е централна за теорията на вероятностите. Използвайки тази концепция, може да се даде друга дефиниция на непрекъсната случайна променлива. Случайна променлива се нарича непрекъсната, ако нейната интегрална функция на разпределение F(x) е непрекъсната.

Числени характеристики на непрекъснати случайни величини

Математическото очакване, дисперсията и други параметри на всякакви случайни променливи почти винаги се изчисляват с помощта на формули, които следват от закона за разпределение.

За непрекъсната случайна променлива математическото очакване се изчислява по формулата:

M(X) = ∫ x f(х) dx

дисперсия:

D(X) = ∫ ( х- M (X)) 2 f(х) dx или D(X) = ∫ х 2 е(х) dx - (M (X)) 2

2. Линейна регресия

Нека компонентите X и Y на двумерна случайна променлива (X, Y) са зависими. Ще приемем, че единият от тях може да бъде приблизително представен като линейна функция на другия, например

Y ≈ g(X) = α + βX и определяне на параметрите α и β чрез метода на най-малките квадрати.

Определение. Извиква се функцията g(X) = α + βX най-добро приближение Y в смисъла на метода на най-малките квадрати, ако математическото очакване M(Y - g(X)) 2 приеме най-малката възможна стойност; се извиква функцията g(X). средна квадратична регресия Y към X.

ТеоремаЛинейната средноквадратична регресия на Y върху X е:

където е коефициентът на корелация X и Y.

Коефициенти на уравнението.

Може да се провери, че за тези стойности функцията F(α, β)

Е(α, β ) = М(Y - α - βX)² има минимум, което доказва твърдението на теоремата.

Определение. Коефициентът се нарича регресионен коефициент Y върху X, а правата линия - - директна средноквадратична регресия на Y върху X.

Замествайки координатите на стационарната точка в равенството, можем да намерим минималната стойност на функцията F(α, β), равна на Тази стойност се нарича остатъчна дисперсия Y спрямо X и характеризира количеството грешка, разрешена при замяна на Y с

g(X) = α + βX. При остатъчната дисперсия е 0, тоест равенството не е приблизително, а точно. Следователно, когато Y и X са свързани с линейна функционална зависимост. По същия начин можете да получите права линия на средноквадратична регресия на X върху Y:

и остатъчната дисперсия на X по отношение на Y. За двете директни регресии съвпадат. Сравнявайки регресионните уравнения Y върху X и X върху Y и решавайки системата от уравнения, можете да намерите пресечната точка на регресионните линии - точка с координати (t x, t y), т.нар. центърът на съвместното разпределение на стойностите X и Y.

Ще разгледаме алгоритъма за съставяне на регресионни уравнения от учебника на V. E. Gmurman „Теория на вероятностите и математическа статистика“ стр. 256.

1) Съставете изчислителна таблица, в която ще бъдат записани номерата на примерните елементи, вариантите на примерите, техните квадрати и продукт.

2) Изчислете сумата във всички колони с изключение на числото.

3) Изчислете средните стойности за всяко количество, дисперсия и стандартни отклонения.

5) Тествайте хипотезата за съществуването на връзка между X и Y.

6) Съставете уравненията на двете регресионни линии и начертайте графиките на тези уравнения.

Наклонът на правата регресия Y върху X е регресионният коефициент на извадката

Коефициент b=

Получаваме желаното уравнение на регресионната линия Y върху X:

Y \u003d 0,202 X + 1,024

По същия начин регресионното уравнение X върху Y:

Наклонът на правата регресия Y върху X е примерният регресионен коефициент pxy:

Коефициент b=

X \u003d 4,119 Y - 3,714

3. Нелинейна регресия

Ако съществуват нелинейни зависимости между икономическите явления, тогава те се изразяват с помощта на съответните нелинейни функции.

Има два класа нелинейни регресии:

1. Регресии, които са нелинейни по отношение на обяснителните променливи, включени в анализа, но линейни по отношение на оценените параметри, например:

Полиноми от различни степени

Равностранна хипербола - ;

Полулогаритмична функция - .

2. Регресии, които са нелинейни по отношение на оценените параметри, например:

Мощност - ;

Демонстративен -;

Експоненциален - .

Нелинейните регресии на включените променливи се редуцират до линейна форма чрез проста промяна на променливите и по-нататъшното оценяване на параметрите се извършва с помощта на метода на най-малките квадрати. Нека разгледаме някои функции.

Параболата от втора степен се редуцира до линейна форма, като се използва замяната: . В резултат на това стигаме до двуфакторно уравнение, оценката на чиито параметри с помощта на метода на най-малките квадрати води до системата от уравнения:

Парабола от втора степен обикновено се използва в случаите, когато за определен интервал от стойности на факторите се променя естеството на връзката на разглежданите характеристики: пряка връзка се променя в обратна или обратна в пряка.

Равностранна хипербола може да се използва за характеризиране на връзката между специфичните разходи за суровини, материали, гориво и обема на продукцията, времето на обръщение на стоките и стойността на оборота. Негов класически пример е кривата на Филипс, която характеризира нелинейната връзка между нивото на безработица хи процентно увеличение на заплатите г.

Хиперболата се свежда до линейно уравнение чрез проста замяна: . Можете също да използвате метода на най-малките квадрати, за да изградите система от линейни уравнения.

По подобен начин зависимостите се привеждат в линеен вид: , и др.

Равностранна хипербола и полулогаритмична крива се използват за описание на кривата на Engel (математическо описание на връзката между дела на разходите за дълготрайни стоки и общите разходи (или доходи)). Уравненията, в които са включени, се използват при изследванията на производителността, трудоемкостта на селскостопанското производство.

4. Множествена регресия

Множествена регресия - уравнение на връзка с множество независими променливи:

където е зависимата променлива (резултатен знак);

Независими променливи (фактори).

За изграждане на уравнение на множествена регресия най-често се използват следните функции:

линеен -

мощност -

изложител -

хипербола - .

Можете да използвате други функции, които могат да бъдат намалени до линейна форма.

За оценка на параметрите на уравнението на множествената регресия се използва методът на най-малките квадрати (LSM). За линейни уравнения и нелинейни уравнения, редуцируеми до линейни, е изградена следната система от нормални уравнения, чието решение позволява да се получат оценки на параметрите на регресията:

За решаването му може да се приложи методът на детерминантите:

където е детерминантата на системата;

Частни детерминанти; които се получават чрез замяна на съответната колона от матрицата на детерминантата на системата с данните от лявата страна на системата.

Друг тип уравнение на множествена регресия е уравнението на стандартизираната скала на регресия, LSM е приложимо към уравнението на множествената регресия в стандартизирана скала.

5. УпотребаГОСПОЖИЦАEXCELза извършване на регресионен анализ

Регресионният анализ установява формата на връзката между случайната променлива Y (зависима) и стойностите на една или повече променливи (независими), като стойностите на последните се считат за точно дадени. Такава зависимост обикновено се определя от някакъв математически модел (регресионно уравнение), съдържащ няколко неизвестни параметъра. В хода на регресионния анализ въз основа на извадкови данни се намират оценки на тези параметри, определят се статистически грешки на оценките или границите на доверителните интервали и се проверява съответствието (адекватността) на приетия математически модел с експериментални данни.

При линейния регресионен анализ връзката между случайните променливи се приема за линейна. В най-простия случай, в сдвоен линеен регресионен модел, има две променливи X и Y. И се изисква за n двойки наблюдения (X1, Y1), (X2, Y2), ..., (Xn, Yn) за изграждане (избиране) на права линия, наречена линия на регресия, която "най-добре" приближава наблюдаваните стойности. Уравнението на тази права y=ax+b е регресионно уравнение. С помощта на регресионно уравнение можете да предвидите очакваната стойност на зависимата променлива y, съответстваща на дадена стойност на независимата променлива x. В случай, че се разглежда зависимостта между една зависима променлива Y и няколко независими променливи X1, X2, ..., Xm, се говори за множествена линейна регресия.

В този случай регресионното уравнение има формата

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m,

където a0, a1, a2, …, am са регресионните коефициенти, които трябва да бъдат определени.

Коефициентите на регресионното уравнение се определят с помощта на метода на най-малките квадрати, като се постига минималната възможна сума на квадратите на разликите между реалните стойности на променливата Y и тези, изчислени с помощта на регресионното уравнение. Така, например, уравнение на линейна регресия може да бъде конструирано дори когато няма линейна корелация.

Мярка за ефективността на регресионния модел е коефициентът на детерминация R2 (R-квадрат). Коефициентът на определяне може да приема стойности между 0 и 1, определя с каква степен на точност полученото регресионно уравнение описва (приближава) оригиналните данни. Значимостта на регресионния модел също се изследва с помощта на F-критерия (Fisher) и надеждността на разликата между коефициентите a0, a1, a2, ..., am от нула се проверява с помощта на t-теста на Student.

В Excel експерименталните данни се апроксимират с линейно уравнение до 16-ти ред:

y = a0+a1x1+a2x2+...+a16x16

За получаване на коефициенти на линейна регресия може да се използва процедурата "Регресия" от пакета за анализ. Освен това функцията LINEST предоставя пълна информация за уравнението на линейната регресия. Освен това функциите SLOPE и INTERCEPT могат да се използват за получаване на параметрите на регресионното уравнение, а функциите TREND и FORECAST могат да се използват за получаване на прогнозираните стойности на Y в необходимите точки (за регресия по двойки).

Нека разгледаме подробно приложението на функцията LINEST (известен_y, [известен_x], [константа], [статистика]): известен_y - диапазонът от известни стойности на зависимия параметър Y. При регресионен анализ по двойки може да има всякаква форма; в множествено число трябва да е или ред, или колона; unknown_x е диапазонът от известни стойности на един или повече независими параметри. Трябва да има същата форма като диапазона Y (съответно за множество параметри, множество колони или редове); константа - булев аргумент. Ако въз основа на практическото значение на задачата за регресионен анализ е необходимо линията на регресия да минава през началото, т.е. свободният коефициент да е равен на 0, стойността на този аргумент трябва да бъде зададена равна на 0 (или „ невярно”). Ако стойността е зададена на 1 (или "true") или пропусната, тогава безплатният коефициент се изчислява по обичайния начин; статистиката е булев аргумент. Ако стойността е зададена на 1 (или „истина“), тогава се връща допълнителна регресионна статистика (вижте таблицата), използвана за оценка на ефективността и значимостта на модела. В общия случай, за регресия по двойки y=ax+b, резултатът от прилагането на функцията LINEST изглежда така:

Таблица. Изходен обхват на LINEST за регресионен анализ по двойки

В случай на множествен регресионен анализ за уравнението y=a0+a1x1+a2x2+…+amxm, коефициентите am,…,a1,a0 се показват на първия ред, а стандартните грешки за тези коефициенти се показват на втория ред . Редове 3-5, с изключение на първите две колони, попълнени с регресионна статистика, ще дадат #N/A.

Функцията LINEST трябва да бъде въведена като формула за масив, като първо изберете масив с желания размер за резултата (m+1 колони и 5 реда, ако се изискват регресионни статистики) и завършете въвеждането на формула чрез натискане на CTRL+SHIFT+ENTER.

Резултатът за нашия пример:

Освен това програмата има вградена функция - Анализ на данни в раздела Данни.

Може да се използва и за извършване на регресионен анализ:

На слайда - резултатът от регресионния анализ, извършен с помощта на Data Analysis.

РЕЗУЛТАТИ

Регресионна статистика

Множество R

R-квадрат

Нормализиран R-квадрат

стандартна грешка

Наблюдения

Дисперсионен анализ

Значение F

Регресия

Коефициенти

стандартна грешка

t-статистика

P-стойност

дъно 95%

Топ 95%

По-ниски 95,0%

Топ 95,0%

Y-пресечка

Променлива X 1

Регресионните уравнения, които разгледахме по-рано, също са изградени в MS Excel. За да ги изпълните, първо се изгражда точкова диаграма, след което чрез контекстното меню изберете - Добавяне на тренд линия. В новия прозорец поставете отметки в квадратчетата - Покажи уравнението на диаграмата и поставете стойността на надеждността на приближението (R^2) върху диаграмата.

Литература:

  1. Теория на вероятностите и математическа статистика. Гмурман В. Е. Учебник за университети. - Ед. 10-ти, ср. - М.: Висше. училище, 2010. - 479с.
  2. Висша математика в упражнения и задачи. Учебник за университети / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 часа - Изд. 6-ти, ср. - М .: Издателска къща Oniks LLC: Издателска къща Mir and Education LLC, 2007. - 416 с.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - малко информация за регресионния анализ

Концепцията за регресия. Връзка между променливите хи гмогат да бъдат описани по различни начини. По-специално, всяка форма на връзка може да бъде изразена чрез общо уравнение , където гтретиран като зависима променлива, или функцииот друга - независима променлива x, т.нар аргумент. Съответствието между аргумент и функция може да бъде дадено от таблица, формула, графика и т.н. Извиква се промяна на функция в зависимост от промяна в един или повече аргументи регресия. Всички средства, използвани за описание на корелациите, са съдържанието регресионен анализ.

За изразяване на регресията служат корелационни уравнения или регресионни уравнения, емпирични и теоретично изчислени регресионни серии, техните графики, наречени регресионни линии, както и линейни и нелинейни регресионни коефициенти.

Регресионните показатели изразяват корелацията двупосочно, като отчитат промяната в средните стойности на атрибута Yпри промяна на стойностите х аззнак х, и обратно, показват промяната в средните стойности на характеристиката хпо променени стойности г аззнак Y. Изключение правят времевите редове или редовете от динамика, показващи промяната на знаците във времето. Регресията на такива серии е едностранна.

Има много различни форми и видове корелации. Задачата се свежда до идентифициране на формата на връзка във всеки конкретен случай и изразяването й чрез съответното корелационно уравнение, което ни позволява да предвидим възможни промени в един знак Yвъз основа на известни промени х, свързани с първата корелация.

12.1 Линейна регресия

Регресионно уравнение.Резултатите от наблюденията, извършени върху определен биологичен обект според корелирани характеристики хи г, могат да бъдат представени чрез точки на равнина чрез конструиране на система от правоъгълни координати. В резултат на това се получава определена диаграма на разсейване, която позволява да се прецени формата и плътността на връзката между вариращите характеристики. Доста често тази връзка изглежда като права линия или може да бъде апроксимирана с права линия.

Линейна връзка между променливите хи гсе описва с общо уравнение , където а, б, в, г,… са параметрите на уравнението, които определят връзката между аргументите х 1 , х 2 , х 3 , …, х ми функции.

На практика не се вземат предвид всички възможни аргументи, а само някои аргументи, в най-простия случай само един:

В уравнението на линейната регресия (1) ае свободен термин, а параметърът bопределя наклона на регресионната линия по отношение на правоъгълните координатни оси. В аналитичната геометрия този параметър се нарича фактор на наклона, а в биометрията - регресионен коефициент. Визуално представяне на този параметър и позицията на регресионните линии YНа хи хНа Yв системата от правоъгълни координати дава Фиг.1.

Ориз. 1 Y по X и X по Y регресионни линии в системата

правоъгълни координати

Регресионните линии, както е показано на фиг. 1, се пресичат в точката O (,), съответстваща на средните аритметични стойности на знаци, корелирани помежду си Yи х. При начертаване на регресионни графики стойностите на независимата променлива X се нанасят по абсцисата, а стойностите на зависимата променлива или функцията Y се нанасят по ординатата.Линията AB, минаваща през точката O (, ) съответства на пълната (функционална) връзка между променливите Yи хкогато коефициентът на корелация . Колкото по-силна е връзката между Yи х, колкото по-близо са регресионните линии до AB и, обратно, колкото по-слаба е връзката между тези стойности, толкова по-отдалечени са регресионните линии от AB. При липса на връзка между характеристиките регресионните линии са под прав ъгъл една спрямо друга и .

Тъй като регресионните показатели изразяват корелацията двупосочно, регресионното уравнение (1) трябва да се запише, както следва:

Според първата формула средните стойности се определят при промяна на знака хза единица мярка, на втория - осреднени стойности при промяна на характеристика за единица мярка Y.

Коефициент на регресия.Коефициентът на регресия показва как средно стойността на една характеристика гсе променя, когато друга мерна единица, корелирана с Yзнак х. Този показател се определя по формулата

Тук ценности сумножете по размера на класовите интервали λ ако са намерени чрез вариационни серии или корелационни таблици.

Коефициентът на регресия може да се изчисли, заобикаляйки изчисляването на стандартните отклонения с ги с хспоред формулата

Ако коефициентът на корелация е неизвестен, коефициентът на регресия се определя, както следва:

Връзка между регресия и корелационни коефициенти.Сравнявайки формули (11.1) (тема 11) и (12.5), виждаме, че числителят им съдържа една и съща стойност, което показва връзка между тези показатели. Тази връзка се изразява с равенството

По този начин коефициентът на корелация е равен на средното геометрично на коефициентите b yxи b xy. Формула (6) позволява, първо, от известните стойности на регресионните коефициенти b yxи b xyопределя коефициента на регресия Р xy, и второ, за проверка на правилността на изчислението на този показател за корелация Р xyмежду различни черти хи Y.

Подобно на коефициента на корелация, коефициентът на регресия характеризира само линейна връзка и е придружен от знак плюс за положителна връзка и знак минус за отрицателна връзка.

Определяне на параметри на линейна регресия.Известно е, че сумата от квадратите на отклоненията на варианта х азот средната има най-малката стойност, т.е. тази теорема формира основата на метода на най-малките квадрати. По отношение на линейната регресия [вж формула (1)], изискването на тази теорема се удовлетворява от определена система от уравнения, наречена нормално:

Съвместно решаване на тези уравнения по отношение на параметрите аи bводи до следните резултати:

;

;

, откъдето и.

Предвид двустранния характер на връзката между променливите Yи х, формулата за определяне на параметъра атрябва да се изрази така:

и . (7)

Параметър b, или регресионен коефициент, се определя по следните формули:

Построяване на емпирични регресионни редове.При наличие на голям брой наблюдения, регресионният анализ започва с изграждането на емпирични регресионни редове. Емпирични регресионни сериисе формира чрез изчисляване на стойностите на един променлив атрибут хсредни стойности на другия, корелирани с хзнак Y. С други думи, изграждането на емпирични регресионни серии се свежда до намиране на груповите средства u от съответните стойности на характеристиките Y и X.

Емпирична регресионна серия е двойна серия от числа, които могат да бъдат представени от точки в равнина и след това, чрез свързване на тези точки с прави сегменти, може да се получи емпирична регресионна линия. Емпиричните регресионни серии, особено техните графики, т.нар регресионни линии, дават визуално представяне на формата и плътността на корелационната зависимост между различни характеристики.

Изравняване на емпирични регресионни редове.Графиките на емпиричните регресионни серии като правило не са гладки, а начупени линии. Това се обяснява с факта, че наред с основните причини, които определят общия модел в променливостта на корелираните черти, тяхната стойност се влияе от влиянието на множество вторични причини, които причиняват случайни колебания в възловите точки на регресията. За да идентифицирате основната тенденция (тенденция) на конюгираната вариация на корелирани характеристики, трябва да замените прекъснатите линии с плавни, гладко протичащи регресионни линии. Процесът на замяна на прекъснати линии с гладки се нарича подравняване на емпирични сериии регресионни линии.

Метод на графично подравняване.Това е най-простият метод, който не изисква изчислителна работа. Същността му е следната. Емпиричната регресионна серия се начертава като графика в правоъгълна координатна система. След това визуално се очертават средните точки на регресията, по които се изчертава плътна линия с линийка или шаблон. Недостатъкът на този метод е очевиден: той не изключва влиянието на индивидуалните характеристики на изследователя върху резултатите от подреждането на емпиричните регресионни линии. Следователно, в случаите, когато се изисква по-висока точност при замяна на прекъснати регресионни линии с гладки, се използват други методи за подравняване на емпиричните серии.

Метод на подвижната средна.Същността на този метод се свежда до последователно изчисляване на средноаритметичното на два или три съседни члена на емпиричната серия. Този метод е особено удобен в случаите, когато емпиричният ред е представен от голям брой членове, така че загубата на два от тях - крайните, което е неизбежно при този метод на изравняване, няма да повлияе забележимо на неговата структура.

Метод на най-малките квадрати.Този метод е предложен в началото на 19 век от A.M. Лежандр и независимо от него К. Гаус. Тя ви позволява най-точно да подравните емпиричните серии. Този метод, както е показано по-горе, се основава на предположението, че сумата от квадратните отклонения на варианта х аз от средната им стойност има минимална стойност, т.е. Оттук и името на метода, който се използва не само в екологията, но и в технологиите. Методът на най-малките квадрати е обективен и универсален, използва се в различни случаи при намиране на емпирични уравнения на регресионни серии и определяне на техните параметри.

Изискването на метода на най-малките квадрати е, че теоретичните точки на регресионната линия трябва да бъдат получени по такъв начин, че сумата от квадратите на отклоненията от тези точки за емпирични наблюдения г азе била минимална, т.е.

Изчислявайки минимума на този израз в съответствие с принципите на математическия анализ и трансформирайки го по определен начин, може да се получи система от т.нар. нормални уравнения, в които неизвестните стойности са желаните параметри на регресионното уравнение, а известните коефициенти се определят от емпиричните стойности на характеристиките, обикновено сумите от техните стойности и техните кръстосани продукти.

Множествена линейна регресия.Връзката между няколко променливи обикновено се изразява чрез уравнение на множествена регресия, което може да бъде линеени нелинейни. В най-простата си форма множествената регресия се изразява чрез уравнение с две независими променливи ( х, z):

където ае свободният член на уравнението; bи ° Сса параметрите на уравнението. За намиране на параметрите на уравнение (10) (по метода на най-малките квадрати) се използва следната система от нормални уравнения:

Редове на динамиката. Подравняване на редове.Смяната на знаците във времето формира т.нар времеви редовеили редове на динамиката. Характерна особеност на такива серии е, че факторът време винаги действа тук като независима променлива X, а променящият се знак е зависимата променлива Y. В зависимост от регресионната серия връзката между променливите X и Y е едностранна, тъй като факторът време не зависи от променливостта на характеристиките. Въпреки тези характеристики, времевите редове могат да бъдат оприличени на регресионни редове и обработени по същите методи.

Подобно на регресионните редове, емпиричните времеви редове се влияят не само от основните, но и от множество вторични (случайни) фактори, които замъгляват основната тенденция в променливостта на характеристиките, която на езика на статистиката се нарича тенденция.

Анализът на времеви редове започва с идентифициране на формата на тренда. За да направите това, времевият ред се изобразява като линейна графика в правоъгълна координатна система. В същото време времевите точки (години, месеци и други единици време) са нанесени по абсцисната ос, а стойностите на зависимата променлива Y са нанесени по ординатната ос. е регресионното уравнение под формата на отклонения на членовете на серията на зависимата променлива Y от средната аритметична стойност на серията на независимата променлива X:

Тук е параметърът на линейната регресия.

Числени характеристики на динамиката.Основните обобщаващи числени характеристики на динамиката включват средно геометричнои средно аритметично близко до него. Те характеризират средната скорост, с която стойността на зависимата променлива се променя за определени периоди от време:

Оценката на променливостта на членовете на динамичния ред е стандартно отклонение. При избора на регресионни уравнения за описание на динамичния ред се взема предвид формата на тренда, който може да бъде линеен (или редуциран до линеен) и нелинеен. Правилността на избора на регресионното уравнение обикновено се оценява по сходството на емпирично наблюдаваните и изчислените стойности на зависимата променлива. По-точен при решаването на този проблем е методът на регресионния дисперсионен анализ (тема 12 т.4).

Корелация на серии от динамика.Често е необходимо да се сравнява динамиката на паралелни времеви редове, които са свързани помежду си с някои общи условия, например, за да се установи връзката между селскостопанската продукция и растежа на добитъка за определен период от време. В такива случаи връзката между променливите X и Y се характеризира с коефициент на корелация R xy (при наличие на линеен тренд).

Известно е, че тенденцията на серията от динамика, като правило, е затъмнена от колебанията в условията на серията на зависимата променлива Y. Следователно възниква двоен проблем: измерване на зависимостта между сравняваните серии, без да се изключва тенденцията и измерване на зависимостта между съседни членове на една и съща серия, като се изключи тенденцията. В първия случай индикаторът за близостта на връзката между сравняваните серии от динамика е коефициент на корелация(ако връзката е линейна), във втория - автокорелационен коефициент. Тези показатели имат различни стойности, въпреки че се изчисляват по едни и същи формули (вижте тема 11).

Лесно е да се види, че стойността на коефициента на автокорелация се влияе от променливостта на членовете на серията на зависимата променлива: колкото по-малко членовете на серията се отклоняват от тенденцията, толкова по-висок е коефициентът на автокорелация и обратно.

При наличието на корелация между факторните и резултантните признаци, лекарите често трябва да определят с каква стойност може да се промени стойността на един знак, когато друг се промени от мерна единица, общоприета или установена от самия изследовател.

Например, как ще се промени телесното тегло на учениците от 1-ви клас (момичета или момчета), ако височината им се увеличи с 1 см. За тази цел се използва методът на регресионен анализ.

Най-често методът на регресионния анализ се използва за разработване на нормативни скали и стандарти за физическо развитие.

  1. Определение за регресия. Регресията е функция, която позволява, въз основа на средната стойност на един атрибут, да се определи средната стойност на друг атрибут, който е в корелация с първия.

    За тази цел се използва коефициентът на регресия и редица други параметри. Например, можете да изчислите средния брой настинки при определени стойности на средната месечна температура на въздуха през есенно-зимния период.

  2. Определяне на регресионния коефициент. Коефициентът на регресия е абсолютната стойност, с която стойността на един атрибут се променя средно, когато друг атрибут, свързан с него, се променя с установената мерна единица.
  3. Формула за коефициент на регресия. R y / x \u003d r xy x (σ y / σ x)
    където R y / x - коефициент на регресия;
    r xy - коефициент на корелация между признаците x и y;
    (σ y и σ x) - стандартни отклонения на характеристиките x и y.

    В нашия пример;
    σ x = 4,6 (стандартно отклонение на температурата на въздуха през есенно-зимния период;
    σ y = 8,65 (стандартно отклонение на броя на инфекциозните настинки).
    Следователно R y/x е регресионният коефициент.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, т.е. при понижаване на средната месечна температура на въздуха (x) с 1 градус средният брой инфекциозни настинки (y) през есенно-зимния период ще се промени с 1,8 случая.

  4. Регресионно уравнение. y \u003d M y + R y / x (x - M x)
    където y е средната стойност на атрибута, която трябва да се определи, когато се промени средната стойност на друг атрибут (x);
    x - известна средна стойност на друг признак;
    R y/x - коефициент на регресия;
    M x, M y - известни средни стойности на характеристиките x и y.

    Например, средният брой инфекциозни настинки (y) може да се определи без специални измервания при всяка средна стойност на средната месечна температура на въздуха (x). Така че, ако x = - 9 °, R y / x = 1,8 заболявания, M x = -7 °, M y = 20 заболявания, тогава y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 заболявания.
    Това уравнение се прилага в случай на праволинейна връзка между две характеристики (x и y).

  5. Предназначение на регресионното уравнение. Регресионното уравнение се използва за начертаване на регресионната линия. Последното позволява, без специални измервания, да се определи всяка средна стойност (y) на един атрибут, ако стойността (x) на друг атрибут се промени. Въз основа на тези данни се изгражда графика - регресионна линия, който може да се използва за определяне на средния брой настинки при всяка стойност на средната месечна температура в диапазона между изчислените стойности на броя на настинките.
  6. Регресионна сигма (формула).
    където σ Ru/x - сигма (стандартно отклонение) на регресията;
    σ y е стандартното отклонение на характеристиката y;
    r xy - коефициент на корелация между признаците x и y.

    Така че, ако σ y е стандартното отклонение на броя на настинките = 8,65; r xy - коефициентът на корелация между броя на простудните заболявания (y) и средната месечна температура на въздуха през есенно-зимния период (x) е - 0,96, тогава

  7. Целта на сигма регресията. Дава характеристика на мярката на разнообразието на получената характеристика (y).

    Например, той характеризира разнообразието на броя на простудните заболявания при определена стойност на средната месечна температура на въздуха през есенно-зимния период. Така средният брой на настинки при температура на въздуха x 1 \u003d -6 ° може да варира от 15,78 заболявания до 20,62 заболявания.
    При x 2 = -9°, средният брой на настинки може да варира от 21,18 заболявания до 26,02 заболявания и т.н.

    Регресионната сигма се използва при изграждането на регресионна скала, която отразява отклонението на стойностите на ефективния атрибут от средната му стойност, нанесена на линията на регресия.

  8. Данни, необходими за изчисляване и начертаване на регресионната скала
    • коефициент на регресия - Ry/x;
    • регресионно уравнение - y \u003d M y + R y / x (x-M x);
    • регресионна сигма - σ Rx/y
  9. Последователността на изчисленията и графично представяне на регресионната скала.
    • определете коефициента на регресия по формулата (вижте параграф 3). Например, трябва да се определи колко средно ще се промени телесното тегло (на определена възраст в зависимост от пола), ако средната височина се промени с 1 см.
    • според формулата на регресионното уравнение (вижте параграф 4), определете какво ще бъде средното, например телесно тегло (y, y 2, y 3 ...) * за определена стойност на растеж (x, x 2, х 3 ...).
      ________________
      * Стойността на "y" трябва да се изчисли за поне три известни стойности на "x".

      В същото време са известни средните стойности на телесното тегло и височината (M x и M y) за определена възраст и пол

    • изчислете сигмата на регресията, като знаете съответните стойности на σ y и r xy и замените техните стойности във формулата (вижте параграф 6).
    • въз основа на известните стойности x 1, x 2, x 3 и съответните им средни стойности y 1, y 2 y 3, както и най-малките (y - σ ru / x) и най-големите (y + σ ru / x) стойностите \u200b\u200b(y) конструират регресионна скала.

      За графично представяне на регресионната скала, стойностите x, x 2, x 3 (ос y) първо се маркират на графиката, т.е. изгражда се регресионна линия, например зависимостта на телесното тегло (y) от височината (x).

      След това в съответните точки y 1 , y 2 , y 3 се отбелязват числените стойности на регресионната сигма, т.е. на графиката намерете най-малката и най-голямата стойност на y 1 , y 2 , y 3 .

  10. Практическо използване на регресионната скала. Разработват се нормативни скали и стандарти, по-специално за физическо развитие. Според стандартната скала е възможно да се даде индивидуална оценка на развитието на децата. В същото време физическото развитие се оценява като хармонично, ако например при определена височина телесното тегло на детето е в рамките на една регресионна сигма към средната изчислена единица телесно тегло - (y) за дадена височина (x) ( y ± 1 σ Ry / x).

    Физическото развитие се счита за дисхармонично по отношение на телесното тегло, ако телесното тегло на детето за определен ръст е в рамките на втората регресионна сигма: (y ± 2 σ Ry/x)

    Физическото развитие ще бъде рязко дисхармонично както поради наднормено, така и поради недостатъчно телесно тегло, ако телесното тегло за определен ръст е в рамките на третата сигма на регресията (y ± 3 σ Ry/x).

Според резултатите от статистическо изследване на физическото развитие на 5-годишни момчета е известно, че средният им ръст (x) е 109 cm, а средното телесно тегло (y) е 19 kg. Коефициентът на корелация между височината и телесното тегло е +0,9, стандартните отклонения са представени в таблицата.

Задължително:

  • изчисляване на коефициента на регресия;
  • използвайки регресионното уравнение, определете какво ще бъде очакваното телесно тегло на 5-годишни момчета с височина, равна на x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • изчислява регресионната сигма, изгражда регресионна скала, представя резултатите от нейното решение графично;
  • направи съответните заключения.

Условието на задачата и резултатите от нейното решение са представени в обобщената таблица.

маса 1

Условия на проблема Резултати от решението на проблема
регресионно уравнение сигма регресия регресионна скала (очаквано телесно тегло (в kg))
М σ r xy R y/x х При σRx/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Височина (x) 109 см ± 4,4 см +0,9 0,16 100см 17.56 кг ± 0,35 кг 17,21 кг 17.91 кг
Телесно тегло (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18.81 кг 19,51 кг
120 см 20.76 кг 20.41 кг 21,11 кг

Решение.

Заключение.По този начин регресионната скала в рамките на изчислените стойности на телесното тегло ви позволява да я определите за всяка друга стойност на растежа или да оцените индивидуалното развитие на детето. За да направите това, възстановете перпендикуляра на регресионната линия.

  1. Власов В.В. Епидемиология. - М.: ГЕОТАР-МЕД, 2004. - 464 с.
  2. Лисицин Ю.П. Обществено здраве и здравеопазване. Учебник за средните училища. - М.: ГЕОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юриев В.К. Курс лекции по обществено здраве и здравеопазване: Част 1. Обществено здраве. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др.. Социална медицина и организация на здравеопазването (Ръководство в 2 тома). - Санкт Петербург, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.. Социална хигиена и организация на здравеопазването (Урок) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологична статистика. По от английски. - М., Практика, 1998. - 459 с.

При статистическото моделиране регресионният анализ е изследване, използвано за оценка на връзката между променливите. Този математически метод включва много други методи за моделиране и анализ на множество променливи, когато фокусът е върху връзката между зависима променлива и една или повече независими променливи. По-конкретно, регресионният анализ ви помага да разберете как се променя типичната стойност на зависимата променлива, ако една от независимите променливи се промени, докато другите независими променливи остават фиксирани.

Във всички случаи целевият резултат е функция на независимите променливи и се нарича регресионна функция. В регресионния анализ също е от интерес да се характеризира промяната в зависимата променлива като функция на регресията, която може да бъде описана с помощта на вероятностно разпределение.

Задачи на регресионния анализ

Този статистически метод на изследване се използва широко за прогнозиране, където използването му има значително предимство, но понякога може да доведе до илюзия или фалшиви връзки, така че се препоръчва да се използва внимателно при този въпрос, тъй като например корелацията не означава причинно-следствена връзка.

Разработени са голям брой методи за извършване на регресионен анализ, като линейна и обикновена регресия на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се дефинира от гледна точка на краен брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява нейната функция да лежи в определен набор от функции, които могат да бъдат безкрайномерни.

Като статистически изследователски метод регресионният анализ на практика зависи от формата на процеса на генериране на данни и от това как той се свързва с регресионния подход. Тъй като истинската форма на генериране на процеса на данни обикновено е неизвестно число, регресионният анализ на данните често зависи до известна степен от предположенията за процеса. Тези предположения понякога могат да бъдат тествани, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че може да не се представят по най-добрия начин.

В по-тесен смисъл регресията може да се отнася конкретно до оценката на променливите на непрекъснатия отговор, за разлика от променливите на дискретния отговор, използвани в класификацията. Случаят на непрекъсната изходна променлива се нарича още метрична регресия, за да се разграничи от свързани проблеми.

История

Най-ранната форма на регресия е добре познатият метод на най-малките квадрати. Той е публикуван от Лежандр през 1805 г. и Гаус през 1809 г. Лежандр и Гаус прилагат метода към проблема за определяне от астрономически наблюдения на орбитите на телата около Слънцето (главно комети, но по-късно и новооткрити малки планети). Гаус публикува по-нататъшно развитие на теорията на най-малките квадрати през 1821 г., включително вариант на теоремата на Гаус-Марков.

Терминът "регресия" е въведен от Франсис Галтън през 19 век, за да опише биологичен феномен. Изводът беше, че растежът на потомците от растежа на предците, като правило, регресира до нормалната средна стойност. За Галтън регресията има само това биологично значение, но по-късно работата му е възприета от Удни Йоли и Карл Пиърсън и е отнесена към по-общ статистически контекст. В работата на Юл и Пиърсън съвместното разпределение на отговора и обяснителните променливи се счита за Гаусово. Това предположение е отхвърлено от Фишер в документите от 1922 и 1925 г. Фишър предположи, че условното разпределение на променливата на отговора е гаусово, но съвместното разпределение не е необходимо да бъде. В това отношение предложението на Фишър е по-близо до формулировката на Гаус от 1821 г. Преди 1970 г. понякога отнемаше до 24 часа, за да се получи резултатът от регресионен анализ.

Методите за регресионен анализ продължават да бъдат област на активно изследване. През последните десетилетия бяха разработени нови методи за стабилна регресия; регресии, включващи корелирани отговори; регресионни методи, които приспособяват различни видове липсващи данни; непараметрична регресия; Байесови регресионни методи; регресии, при които предикторните променливи се измерват с грешка; регресии с повече предиктори, отколкото наблюдения и причинно-следствени изводи с регресия.

Регресионни модели

Моделите за регресионен анализ включват следните променливи:

  • Неизвестни параметри, обозначени като бета, които могат да бъдат скалар или вектор.
  • Независими променливи, X.
  • Зависими променливи, Y.

В различни области на науката, където се прилага регресионен анализ, се използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел свързва Y с функция на X и β.

Приближението обикновено се формулира като E (Y | X) = F (X, β). За да се извърши регресионен анализ, трябва да се определи формата на функцията f. По-рядко се основава на знания за връзката между Y и X, които не разчитат на данни. Ако такова знание не е налично, тогава се избира гъвкава или удобна форма F.

Зависима променлива Y

Нека сега приемем, че векторът на неизвестните параметри β има дължина k. За да извърши регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:

  • Ако се наблюдават N точки от данни във формата (Y, X), където N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ако се наблюдава точно N = K и функцията F е линейна, тогава уравнението Y = F(X, β) може да бъде решено точно, а не приблизително. Това се свежда до решаване на набор от N-уравнения с N-неизвестни (елементите на β), които имат уникално решение, стига X да е линейно независим. Ако F е нелинейно, решение може да не съществува или може да има много решения.
  • Най-често срещаната ситуация е, когато има N > точки към данните. В този случай има достатъчно информация в данните, за да се оцени уникалната стойност за β, която най-добре отговаря на данните, а регресионният модел, когато се прилага към данните, може да се разглежда като отменена система в β.

В последния случай регресионният анализ предоставя инструменти за:

  • Намиране на решение за неизвестни параметри β, което например ще минимизира разстоянието между измерената и прогнозираната стойност на Y.
  • При определени статистически допускания, регресионният анализ използва излишна информация, за да предостави статистическа информация за неизвестните параметри β и прогнозираните стойности на зависимата променлива Y.

Необходим брой независими измервания

Да разгледаме регресионен модел, който има три неизвестни параметъра: β 0 , β 1 и β 2 . Да приемем, че експериментаторът прави 10 измервания на една и съща стойност на независимата променлива на вектора X. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто, което можете да направите, е да оцените средното и стандартното отклонение на зависимата променлива Y. По същия начин, чрез измерване на две различни стойности на X, можете да получите достатъчно данни за регресия с две неизвестни, но не и за три или повече неизвестни.

Ако измерванията на експериментатора бяха направени при три различни стойности на независимата векторна променлива X, тогава регресионният анализ ще предостави уникален набор от оценки за трите неизвестни параметъра в β.

В случай на обща линейна регресия горното твърдение е еквивалентно на изискването матрицата X T X да е обратима.

Статистически предположения

Когато броят на измерванията N е по-голям от броя на неизвестните параметри k и грешките на измерване ε i , тогава, като правило, тогава излишната информация, съдържаща се в измерванията, се разпределя и използва за статистически прогнози по отношение на неизвестни параметри. Този излишък от информация се нарича степен на свобода на регресията.

Основни предположения

Класическите допускания за регресионен анализ включват:

  • Вземането на проби е представително за прогнозиране на изводи.
  • Грешката е случайна променлива със средна стойност нула, която зависи от обяснителните променливи.
  • Независимите променливи се измерват без грешки.
  • Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изрази нито един предиктор като линейна комбинация от останалите.
  • Грешките са некорелирани, т.е. ковариационната матрица на грешката на диагоналите и всеки ненулев елемент е дисперсията на грешката.
  • Дисперсията на грешката е постоянна в наблюденията (хомоскедастичност). Ако не, тогава могат да се използват претеглени най-малки квадрати или други методи.

Тези достатъчни условия за оценка на най-малките квадрати имат изискваните свойства, по-специално тези допускания означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато се вземат предвид в класа на линейните оценки. Важно е да се отбележи, че действителните данни рядко отговарят на условията. Тоест, методът се използва дори ако предположенията не са верни. Отклонението от предположенията понякога може да се използва като мярка за това колко полезен е моделът. Много от тези предположения могат да бъдат облекчени с по-напреднали методи. Докладите за статистически анализ обикновено включват анализ на тестове спрямо примерни данни и методология за полезността на модела.

В допълнение, променливите в някои случаи се отнасят до стойности, измерени в точки. Възможно е да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите допускания. Географската претеглена регресия е единственият метод, който се занимава с такива данни.

При линейната регресия характеристиката е, че зависимата променлива, която е Y i , е линейна комбинация от параметри. Например, при проста линейна регресия, n-точковото моделиране използва една независима променлива, x i, и два параметъра, β 0 и β 1.

При множествената линейна регресия има няколко независими променливи или техните функции.

При произволна извадка от популация, нейните параметри позволяват да се получи извадка от линеен регресионен модел.

В този аспект най-популярен е методът на най-малките квадрати. Той предоставя оценки на параметри, които минимизират сумата от квадратите на остатъците. Този вид минимизиране (което е типично за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които се решават, за да се получат оценки на параметрите.

Освен това приемайки, че грешката на популацията обикновено се разпространява, изследователят може да използва тези оценки на стандартните грешки, за да създаде доверителни интервали и да извърши тестване на хипотези относно нейните параметри.

Нелинеен регресионен анализ

Пример, при който функцията не е линейна по отношение на параметрите, показва, че сумата от квадрати трябва да бъде минимизирана с итеративна процедура. Това въвежда много усложнения, които определят разликите между линейните и нелинейните методи на най-малките квадрати. Следователно резултатите от регресионния анализ при използване на нелинеен метод понякога са непредсказуеми.

Изчисляване на мощността и размера на извадката

Тук по правило няма последователни методи по отношение на броя на наблюденията спрямо броя на независимите променливи в модела. Първото правило е предложено от Добра и Хардин и изглежда като N = t^n, където N е размерът на извадката, n е броят на обяснителните променливи, а t е броят на наблюденията, необходими за постигане на желаната точност, ако моделът имаше само една обяснителна променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (N). Ако изследователят реши, че са необходими пет наблюдения за точно определяне на линията (m), тогава максималният брой обяснителни променливи, които моделът може да поддържа, е 4.

Други методи

Въпреки че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има други методи, които се използват много по-рядко. Например, това са следните методи:

  • Байесови методи (например байесовият метод на линейна регресия).
  • Процентна регресия, използвана за ситуации, при които намаляването на процентните грешки се счита за по-подходящо.
  • Най-малките абсолютни отклонения, което е по-стабилно при наличие на отклонения, водещи до квантилна регресия.
  • Непараметрична регресия, изискваща голям брой наблюдения и изчисления.
  • Разстоянието на метриката за обучение, което се научава в търсене на смислена метрика на разстоянието в даденото входно пространство.

Софтуер

Всички основни статистически софтуерни пакети се изпълняват чрез регресионен анализ на най-малките квадрати. Простата линейна регресия и множествената регресия могат да се използват в някои приложения за електронни таблици, както и в някои калкулатори. Въпреки че много статистически софтуерни пакети могат да извършват различни видове непараметрична и стабилна регресия, тези методи са по-малко стандартизирани; различни софтуерни пакети прилагат различни методи. Специализиран софтуер за регресия е разработен за използване в области като анализ на проучвания и невроизображения.