Biografije Karakteristike Analiza

Linearna regresijska analiza. Metode matematičke statistike

REZULTATI

Tablica 8.3a. Regresijska statistika
Regresijska statistika
Višestruki R 0,998364
R-kvadrat 0,99673
Normalizirani R-kvadrat 0,996321
standardna pogreška 0,42405
Zapažanja 10

Pogledajmo najprije gornji dio izračuna prikazanih u tablici 8.3a, regresijsku statistiku.

Vrijednost R-kvadrata, koja se također naziva i mjera sigurnosti, karakterizira kvalitetu rezultirajuće regresijske linije. Ova se kvaliteta izražava stupnjem podudarnosti između izvornih podataka i regresijskog modela (izračunati podaci). Mjera izvjesnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremi, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedinice, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Obrnuto, vrijednost R-kvadrata blizu nule znači lošu kvalitetu konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje regresijske linije prema izvornim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stupanj ovisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R jednak je kvadratnom korijenu koeficijenta determinacije, ova vrijednost uzima vrijednosti u rasponu od nula do jedan.

U jednostavnoj analizi linearne regresije, višestruki R jednak je Pearsonovom koeficijentu korelacije. Doista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tablica 8.3b. Regresijski koeficijenti
Izgledi standardna pogreška t-statistika
Y-raskrižje 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Dana je skraćena verzija izračuna

Sada razmotrite srednji dio izračuna prikazanih u tablici 8.3b. Ovdje je dan regresijski koeficijent b (2,305454545) i pomak duž y-osi, tj. konstanta a (2,694545455).

Na temelju izračuna, jednadžbu regresije možemo napisati na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na temelju predznaka (negativan ili pozitivan) koeficijenti regresije(koeficijent b).

Ako znak na koeficijent regresije- pozitivan, odnos ovisne varijable s nezavisnom bit će pozitivan. U našem slučaju predznak regresijskog koeficijenta je pozitivan, dakle i odnos je pozitivan.

Ako znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tablici 8.3c. prikazani su rezultati izlaza reziduala. Kako bi se ovi rezultati pojavili u izvješću, potrebno je aktivirati checkbox "Reziduali" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tablica 8.3c. Ostaci
Promatranje Predviđeno Y Ostaci Standardna stanja
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Pomoću ovog dijela izvješća možemo vidjeti odstupanja svake točke od konstruirane regresijske linije. Najveća apsolutna vrijednost

Predavanje 3

Regresijska analiza.

1) Numeričke karakteristike regresije

2) Linearna regresija

3) Nelinearna regresija

4) Višestruka regresija

5) Korištenje MS EXCEL-a za izvođenje regresijske analize

Alat za kontrolu i ocjenjivanje - ispitni zadaci

1. Numeričke karakteristike regresije

Regresijska analiza je statistička metoda za proučavanje utjecaja jedne ili više nezavisnih varijabli na zavisnu varijablu. Neovisne varijable se inače nazivaju regresorima ili prediktorima, a zavisne varijable kriterijima. Terminologija zavisnih i nezavisnih varijabli odražava samo matematičku ovisnost varijabli, a ne odnos uzroka i posljedice.

Ciljevi regresijske analize

  • Određivanje stupnja determiniranosti varijacije kriterijske (ovisne) varijable prediktorima (nezavisne varijable).
  • Predviđanje vrijednosti zavisne varijable korištenjem nezavisne varijable(a).
  • Utvrđivanje doprinosa pojedinih nezavisnih varijabli varijaciji zavisne.

Regresijskom analizom ne može se utvrditi postoji li odnos između varijabli, budući da je postojanje takvog odnosa preduvjet za primjenu analize.

Za provođenje regresijske analize najprije se morate upoznati s osnovnim pojmovima statistike i teorije vjerojatnosti.

Osnovne numeričke karakteristike diskretnih i kontinuiranih slučajnih varijabli: matematičko očekivanje, varijanca i standardna devijacija.

Slučajne varijable se dijele u dvije vrste:

  • Diskretan, koji može poprimiti samo određene, unaprijed određene vrijednosti (na primjer, vrijednosti brojeva na gornjoj strani bačene kocke ili redne vrijednosti tekućeg mjeseca);
  • · kontinuirani (najčešće - vrijednosti nekih fizikalnih veličina: težine, udaljenosti, temperature itd.), koji, prema zakonima prirode, mogu poprimiti bilo koje vrijednosti, barem u određenom intervalu.

Zakon distribucije slučajne varijable je korespondencija između mogućih vrijednosti diskretne slučajne varijable i njezinih vjerojatnosti, obično zapisanih u tablici:

Statistička definicija vjerojatnosti izražava se kroz relativnu učestalost slučajnog događaja, odnosno nalazi se kao omjer broja slučajnih varijabli prema ukupnom broju slučajnih varijabli.

Matematičko očekivanje diskretne slučajne varijablex naziva se zbroj proizvoda vrijednosti količine x o vjerojatnosti ovih vrijednosti. Matematičko očekivanje je označeno sa ili M(x) .

n

= M(x) = x 1 str 1 + x 2 str 2 +… + x n p n = S x i pi

ja=1

Disperzija slučajne varijable u odnosu na njezino matematičko očekivanje određena je pomoću numeričke karakteristike koja se naziva disperzija. Jednostavno rečeno, varijanca je širenje slučajne varijable oko srednje vrijednosti. Da biste razumjeli bit disperzije, razmotrite primjer. Prosječna plaća u zemlji je oko 25 tisuća rubalja. Odakle dolazi ovaj broj? Najvjerojatnije se sve plaće zbrajaju i dijele s brojem zaposlenih. U ovom slučaju postoji vrlo velika disperzija (minimalna plaća je oko 4 tisuće rubalja, a maksimalna oko 100 tisuća rubalja). Kad bi svi imali jednaku plaću, tada bi disperzija bila nula, niti bi bilo razlike.

Disperzija diskretne slučajne varijablex naziva se matematičko očekivanje kvadrata razlike slučajne varijable i njezinog matematičkog očekivanja:

D = M [ ((X - M (X)) 2 ]

Koristeći definiciju matematičkog očekivanja za izračun varijance, dobivamo formulu:

D \u003d S (x i - M (X)) 2 p i

Varijanca ima dimenziju kvadrata slučajne varijable. U slučajevima kada je potrebno imati numeričku karakteristiku disperzije mogućih vrijednosti u istoj dimenziji kao i sama slučajna varijabla, koristi se standardna devijacija.

Standardna devijacija slučajna varijabla naziva se kvadratni korijen njezine varijance.

Srednje kvadratno odstupanje je mjera disperzije vrijednosti slučajne varijable oko njenog matematičkog očekivanja.

Primjer.

Zakon raspodjele slučajne varijable X dan je sljedećom tablicom:

Nađite njegovo matematičko očekivanje, varijancu i standardnu ​​devijaciju .

Koristimo gornje formule:

M (X) \u003d 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 \u003d 1,6

Primjer.

U novčanoj lutriji igra se 1 dobitak od 1000 rubalja, 10 dobitaka od 100 rubalja i 100 dobitaka od 1 rublje svaki s ukupnim brojem listića od 10 000. Napravite zakon raspodjele za slučajni dobitak X za vlasnika jedne srećke i odrediti matematičko očekivanje, varijancu i standardnu ​​devijaciju slučajne varijable.

X 1 \u003d 1000, X 2 = 100, X 3 \u003d 1, X 4 = 0,

P1 = 1/10000 = 0,0001, P2 = 10/10000 = 0,001, P3 = 100/10000 = 0,01, P4 = 1 - (P1 + P2 + P3) = 0,9889.

Rezultate stavljamo u tablicu:

Matematičko očekivanje - zbroj parnih umnožaka vrijednosti slučajne varijable po njihovoj vjerojatnosti. Za ovaj problem preporučljivo je izračunati ga po formuli

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rublja.

Dobili smo pravu "fer" cijenu ulaznice.

D \u003d S (x i - M (X)) 2 p i \u003d (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Funkcija distribucije kontinuiranih slučajnih varijabli

Vrijednost koja će kao rezultat testa poprimiti jednu moguću vrijednost (nije unaprijed poznato koju) nazivamo slučajnom varijablom. Kao što je gore spomenuto, slučajne varijable su diskretne (diskontinuirane) i kontinuirane.

Diskretna varijabla je slučajna varijabla koja poprima zasebne moguće vrijednosti s određenim vjerojatnostima koje se mogu numerirati.

Kontinuirana varijabla je slučajna varijabla koja može poprimiti sve vrijednosti iz nekog konačnog ili beskonačnog intervala.

Do ove točke smo se ograničili na samo jednu "varijantu" slučajnih varijabli - diskretne, tj. uzimajući konačne vrijednosti.

Ali teorija i praksa statistike zahtijevaju korištenje koncepta kontinuirane slučajne varijable - dopuštajući bilo koje numeričke vrijednosti iz bilo kojeg intervala.

Zakon raspodjele kontinuirane slučajne varijable prikladno je specificiran korištenjem takozvane funkcije gustoće vjerojatnosti. f(x). Vjerojatnost P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Graf funkcije f (x) naziva se krivulja raspodjele. Geometrijski, vjerojatnost da slučajna varijabla padne u interval (a; b) jednaka je površini odgovarajućeg krivocrtnog trapeza, omeđenog krivuljom distribucije, osi Ox i ravnim linijama x = a, x = b .

P(a£X

Ako se konačni ili prebrojivi skup oduzme od složenog događaja, vjerojatnost novog događaja ostat će nepromijenjena.

Funkcija f(x) - numerička skalarna funkcija realnog argumenta x naziva se gustoća vjerojatnosti i postoji u točki x ako u toj točki postoji granica:

Svojstva gustoće vjerojatnosti:

  1. Gustoća vjerojatnosti je nenegativna funkcija, tj. f(x) ≥ 0

(ako su sve vrijednosti slučajne varijable X u intervalu (a;b), onda posljednja

jednakost se može napisati kao ∫ f (x) dx = 1).

Razmotrimo sada funkciju F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

kontinuirana slučajna varijabla X, tada je F (x) = ∫ f(x) dx = 1).

Iz posljednje jednakosti slijedi f (x) = F" (x)

Ponekad se funkcija f(x) naziva diferencijalnom funkcijom distribucije vjerojatnosti, a funkcija F(x) kumulativnom funkcijom distribucije vjerojatnosti.

Napominjemo najvažnija svojstva funkcije distribucije vjerojatnosti:

  1. F(x) je neopadajuća funkcija.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Koncept distribucijske funkcije središnji je za teoriju vjerojatnosti. Koristeći ovaj koncept, može se dati još jedna definicija kontinuirane slučajne varijable. Slučajnu varijablu nazivamo kontinuiranom ako je njezina funkcija integralne distribucije F(x) kontinuirana.

Numeričke karakteristike kontinuiranih slučajnih varijabli

Matematičko očekivanje, varijanca i drugi parametri bilo koje slučajne varijable gotovo se uvijek izračunavaju pomoću formula koje slijede iz zakona distribucije.

Za kontinuiranu slučajnu varijablu matematičko očekivanje izračunava se formulom:

M(X) = ∫ x f(x) dx

Disperzija:

D(X) = ∫ ( x- M (X)) 2 f(x) dx odnosno D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Linearna regresija

Neka su komponente X i Y dvodimenzionalne slučajne varijable (X, Y) ovisne. Pretpostavit ćemo da se jedna od njih može približno prikazati kao linearna funkcija druge, na primjer

Y ≈ g(X) = α + βX, te odrediti parametre α i β metodom najmanjih kvadrata.

Definicija. Poziva se funkcija g(X) = α + βX najbolja aproksimacija Y u smislu metode najmanjih kvadrata, ako matematičko očekivanje M(Y - g(X)) 2 poprima najmanju moguću vrijednost; poziva se funkcija g(X). srednja kvadratna regresija Y do X.

Teorema Linearna srednja kvadratna regresija Y na X je:

gdje je koeficijent korelacije X i Y.

Koeficijenti jednadžbe.

Može se provjeriti da za ove vrijednosti funkcija funkcija F(α, β)

F(α, β ) = M(Y - α - βX)² ima minimum, što dokazuje tvrdnju teorema.

Definicija. Koeficijent se zove regresijski koeficijent Y na X, a ravna linija - - izravna regresija srednjeg kvadrata Y na X.

Zamjenom koordinata stacionarne točke u jednakost možemo pronaći minimalnu vrijednost funkcije F(α, β) jednaku Ova vrijednost se naziva rezidualna disperzija Y u odnosu na X i karakterizira količinu dopuštene pogreške prilikom zamjene Y s

g(X) = α + βX. Pri , rezidualna varijanca je 0, odnosno jednakost nije približna, već točna. Prema tome, kada su Y i X povezani linearnom funkcionalnom ovisnošću. Slično, možete dobiti ravnu liniju srednje kvadratne regresije X na Y:

i rezidualna varijanca X u odnosu na Y. Za obje izravne regresije koincidiraju. Uspoređujući regresijske jednadžbe Y na X i X na Y te rješavajući sustav jednadžbi, može se pronaći sjecište regresijskih pravaca - točka s koordinatama (t x, t y), tzv. središte zajedničke raspodjele vrijednosti X i Y.

Razmotrit ćemo algoritam za sastavljanje regresijskih jednadžbi iz udžbenika V. E. Gmurmana “Teorija vjerojatnosti i matematička statistika” str. 256.

1) Sastavite proračunsku tablicu u kojoj će biti zabilježeni brojevi uzoraka elemenata, opcije uzorka, njihovi kvadrati i produkt.

2) Izračunajte zbroj u svim stupcima osim u broju.

3) Izračunajte prosječne vrijednosti za svaku količinu, disperziju i standardna odstupanja.

5) Testirajte hipotezu o postojanju veze između X i Y.

6) Sastavite jednadžbe obiju regresijskih linija i nacrtajte grafove tih jednadžbi.

Nagib regresije Y na X je regresijski koeficijent uzorka

Koeficijent b=

Dobivamo željenu jednadžbu regresijske linije Y na X:

Y \u003d 0,202 X + 1,024

Slično, regresijska jednadžba X na Y:

Nagib pravocrtne regresije Y na X je koeficijent regresije uzorka pxy:

Koeficijent b=

X \u003d 4,119 Y - 3,714

3. Nelinearna regresija

Ako postoje nelinearni odnosi između ekonomskih pojava, onda se oni izražavaju pomoću odgovarajućih nelinearnih funkcija.

Postoje dvije klase nelinearne regresije:

1. Regresije koje su nelinearne s obzirom na varijable objašnjenja uključene u analizu, ali linearne s obzirom na procijenjene parametre, na primjer:

Polinomi raznih stupnjeva

Jednakostrana hiperbola - ;

Semilogaritamska funkcija - .

2. Regresije koje su nelinearne u smislu procijenjenih parametara, na primjer:

Snaga - ;

Demonstrativno -;

Eksponencijalni - .

Nelinearne regresije na uključene varijable se jednostavnom promjenom varijabli svode u linearni oblik, a daljnja estimacija parametara provodi se metodom najmanjih kvadrata. Razmotrimo neke funkcije.

Parabola drugog stupnja reducira se na linearni oblik zamjenom: . Kao rezultat toga, dolazimo do dvofaktorske jednadžbe, čija procjena parametara metodom najmanjih kvadrata dovodi do sustava jednadžbi:

Parabola drugog stupnja obično se koristi u slučajevima kada se za određeni interval vrijednosti faktora mijenja priroda odnosa značajki koje se razmatraju: izravni odnos se mijenja u inverzni ili inverzni u izravni.

Jednakostrana hiperbola može se koristiti za karakterizaciju odnosa između specifičnih troškova sirovina, materijala, goriva i obujma proizvodnje, vremena cirkulacije robe i vrijednosti prometa. Njegov klasičan primjer je Phillipsova krivulja, koja karakterizira nelinearni odnos između stope nezaposlenosti x i postotak povećanja plaća g.

Hiperbola se jednostavnom zamjenom svodi na linearnu jednadžbu: . Također možete koristiti metodu najmanjih kvadrata za izgradnju sustava linearnih jednadžbi.

Na sličan način ovisnosti se svode na linearni oblik: , i druge.

Jednakostrana hiperbola i polulogaritamska krivulja koriste se za opis Engelove krivulje (matematički opis odnosa između udjela potrošnje na trajna dobra i ukupne potrošnje (ili dohotka)). Jednadžbe u koje su uključene koriste se u studijama produktivnosti, radnog intenziteta poljoprivredne proizvodnje.

4. Višestruka regresija

Višestruka regresija - jednadžba veze s više nezavisnih varijabli:

gdje je zavisna varijabla (predznak rezultanta);

Nezavisne varijable (faktori).

Za izradu jednadžbe višestruke regresije najčešće se koriste sljedeće funkcije:

linearno -

snaga -

izlagač -

hiperbola - .

Možete koristiti druge funkcije koje se mogu svesti na linearni oblik.

Za procjenu parametara jednadžbe višestruke regresije koristi se metoda najmanjih kvadrata (LSM). Za linearne jednadžbe i nelinearne jednadžbe koje se mogu svesti na linearne konstruiran je sljedeći sustav normalnih jednadžbi čije rješenje omogućuje dobivanje procjena regresijskih parametara:

Za njegovo rješavanje može se primijeniti metoda determinanti:

gdje je determinanta sustava;

Privatne odrednice; koji se dobivaju zamjenom odgovarajućeg stupca matrice determinante sustava s podacima lijeve strane sustava.

Druga vrsta jednadžbe višestruke regresije je jednadžba standardizirane regresije, LSM je primjenjiv na jednadžbu višestruke regresije na standardiziranoj skali.

5. KorištenjeMSEXCELizvršiti regresijsku analizu

Regresijskom analizom utvrđuje se oblik odnosa između slučajne varijable Y (ovisne) i vrijednosti jedne ili više varijabli (neovisne), a vrijednosti potonjih se smatraju točno zadanima. Takvu ovisnost obično određuje neki matematički model (regresijska jednadžba) koji sadrži nekoliko nepoznatih parametara. U tijeku regresijske analize, na temelju podataka uzorka, nalaze se procjene ovih parametara, utvrđuju se statističke pogreške procjena ili granice intervala pouzdanosti te se provjerava usklađenost (adekvatnost) prihvaćenog matematičkog modela s eksperimentalnim podacima.

U linearnoj regresijskoj analizi pretpostavlja se da je odnos između slučajnih varijabli linearan. U najjednostavnijem slučaju, u uparenom modelu linearne regresije, postoje dvije varijable X i Y. I potrebno je za n parova opažanja (X1, Y1), (X2, Y2), ..., (Xn, Yn) izgraditi (odabrati) ravnu liniju, nazvanu regresijska linija, koja "najbolje" aproksimira promatrane vrijednosti. Jednadžba ove linije y=ax+b je regresijska jednadžba. Pomoću regresijske jednadžbe možete predvidjeti očekivanu vrijednost zavisne varijable y koja odgovara zadanoj vrijednosti nezavisne varijable x. U slučaju kada se razmatra ovisnost između jedne zavisne varijable Y i više nezavisnih varijabli X1, X2, ..., Xm, govori se o višestrukoj linearnoj regresiji.

U ovom slučaju regresijska jednadžba ima oblik

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m,

gdje su a0, a1, a2, …, am regresijski koeficijenti koje treba odrediti.

Koeficijenti regresijske jednadžbe određuju se metodom najmanjih kvadrata, pri čemu se postiže najmanji mogući zbroj kvadrata razlika između stvarnih vrijednosti varijable Y i onih izračunatih pomoću regresijske jednadžbe. Tako se, na primjer, jednadžba linearne regresije može konstruirati čak i kada ne postoji linearna korelacija.

Mjera učinkovitosti regresijskog modela je koeficijent determinacije R2 (R-kvadrat). Koeficijent determinacije može poprimiti vrijednosti između 0 i 1 određuje s kojim stupnjem točnosti rezultirajuća regresijska jednadžba opisuje (približava) izvorne podatke. Također se istražuje značajnost regresijskog modela F-kriterijem (Fisher), a pouzdanost razlike koeficijenata a0, a1, a2, ..., am od nule provjerava se Studentovim t-testom.

U Excelu su eksperimentalni podaci aproksimirani linearnom jednadžbom do 16. reda:

y = a0+a1x1+a2x2+…+a16x16

Za dobivanje koeficijenata linearne regresije može se koristiti postupak "Regresija" iz paketa za analizu. Također, funkcija LINEST pruža potpune informacije o jednadžbi linearne regresije. Osim toga, funkcije SLOPE i INTERCEPT mogu se koristiti za dobivanje parametara regresijske jednadžbe, a funkcije TREND i FORECAST mogu se koristiti za dobivanje predviđenih vrijednosti Y u traženim točkama (za regresiju po paru).

Razmotrimo detaljno primjenu funkcije LINEST (poznato_y, [poznato_x], [konstanta], [statistika]): poznato_y - raspon poznatih vrijednosti ovisnog parametra Y. U parnoj regresijskoj analizi može imati bilo koji oblik; u množini, mora biti ili red ili stupac; known_x je raspon poznatih vrijednosti jednog ili više neovisnih parametara. Mora imati isti oblik kao Y raspon (za više parametara, više stupaca ili redaka); konstanta - boolean argument. Ako je, temeljem praktičnog smisla zadatka regresijske analize, potrebno da regresijska linija prolazi kroz ishodište, odnosno da je slobodni koeficijent jednak 0, vrijednost ovog argumenta treba postaviti jednaku 0 (ili “ lažno”). Ako je vrijednost postavljena na 1 (ili "true") ili izostavljena, slobodni koeficijent se izračunava na uobičajeni način; statistika je Boolean argument. Ako je vrijednost postavljena na 1 (ili "točno"), tada se vraća dodatna regresijska statistika (pogledajte tablicu), koja se koristi za procjenu učinkovitosti i značaja modela. U općem slučaju, za parnu regresiju y=ax+b, rezultat primjene funkcije LINEST izgleda ovako:

Stol. Raspon izlaza LINEST-a za regresijsku analizu u paru

U slučaju višestruke regresijske analize za jednadžbu y=a0+a1x1+a2x2+…+amxm, koeficijenti am,…,a1,a0 prikazani su u prvom retku, a standardne pogreške za te koeficijente prikazane su u drugom retku. . Redovi 3-5, osim za prva dva stupca ispunjena regresijskom statistikom, dat će #N/A.

Funkciju LINEST treba unijeti kao formulu polja, prvo odabirom polja željene veličine za rezultat (m+1 stupaca i 5 redaka ako je potrebna regresijska statistika) i dovršavanjem unosa formule pritiskom na CTRL+SHIFT+ENTER.

Rezultat za naš primjer:

Osim toga, program ima ugrađenu funkciju - Analiza podataka na kartici Podaci.

Također se može koristiti za izvođenje regresijske analize:

Na slajdu - rezultat regresijske analize provedene pomoću Data Analysis.

REZULTATI

Regresijska statistika

Višestruki R

R-kvadrat

Normalizirani R-kvadrat

standardna pogreška

Zapažanja

Analiza varijance

Značaj F

Regresija

Izgledi

standardna pogreška

t-statistika

P-vrijednost

donjih 95%

prvih 95%

Niže 95,0%

Vrhunskih 95,0%

Y-raskrižje

Varijabla X 1

Regresijske jednadžbe koje smo ranije pogledali također su izgrađene u MS Excelu. Da biste ih izvršili, prvo se gradi dijagram raspršenja, a zatim kroz kontekstni izbornik odaberite - Dodaj liniju trenda. U novom prozoru označite okvire - Prikaži jednadžbu na dijagramu i postavite vrijednost aproksimacijske pouzdanosti (R^2) na dijagram.

Književnost:

  1. Teorija vjerojatnosti i matematička statistika. Gmurman V. E. Udžbenik za sveučilišta. - Ed. 10., sr. - M.: Viši. škola, 2010. - 479s.
  2. Viša matematika u vježbama i zadacima. Udžbenik za sveučilišta / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. U 2 sata - Ed. 6., sr. - M .: Izdavačka kuća Oniks LLC: Mir and Education Publishing House LLC, 2007. - 416 str.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - neke informacije o regresijskoj analizi

Pojam regresije. Odnos između varijabli x i g može se opisati na različite načine. Konkretno, bilo koji oblik veze može se izraziti općom jednadžbom , gdje g tretirati kao zavisnu varijablu, ili funkcije iz drugog - nezavisna varijabla x, tzv argument. Korespondencija između argumenta i funkcije može se dati tablicom, formulom, grafikonom i tako dalje. Poziva se promjena funkcije ovisno o promjeni jednog ili više argumenata regresija. Sva sredstva koja se koriste za opisivanje korelacija su sadržaj regresijska analiza.

Za izražavanje regresije služe korelacijske jednadžbe, odnosno regresijske jednadžbe, empirijski i teorijski izračunati regresijski nizovi, njihovi grafovi, koji se nazivaju regresijske linije, te koeficijenti linearne i nelinearne regresije.

Indikatori regresije izražavaju korelaciju dvosmjerno, uzimajući u obzir promjenu prosječnih vrijednosti atributa Y pri promjeni vrijednosti x ja znak x, i obrnuto, pokazuju promjenu srednjih vrijednosti obilježja x po promijenjenim vrijednostima g ja znak Y. Izuzetak su vremenske serije ili dinamičke serije koje pokazuju promjenu predznaka tijekom vremena. Regresija takvih serija je jednostrana.

Postoji mnogo različitih oblika i vrsta korelacija. Zadatak se svodi na prepoznavanje oblika veze u svakom konkretnom slučaju i izražavanje odgovarajućom korelacijskom jednadžbom, koja nam omogućuje da predvidimo moguće promjene u jednom znaku Y na temelju poznatih promjena x, povezan s prvom korelacijom.

12.1 Linearna regresija

Regresijska jednadžba. Rezultati opažanja provedenih na određenom biološkom objektu prema koreliranim karakteristikama x i g, mogu se prikazati točkama na ravnini konstruiranjem sustava pravokutnih koordinata. Kao rezultat, dobiva se određeni dijagram raspršenosti, koji omogućuje procjenu oblika i čvrstoće odnosa između različitih značajki. Vrlo često ovaj odnos izgleda kao ravna linija ili se može aproksimirati ravnom linijom.

Linearni odnos između varijabli x i g opisuje se općom jednadžbom , gdje je a, b, c, d,... su parametri jednadžbe koji određuju odnos između argumenata x 1 , x 2 , x 3 , …, x m i funkcije.

U praksi se ne uzimaju u obzir svi mogući argumenti, već samo neki argumenti, u najjednostavnijem slučaju samo jedan:

U jednadžbi linearne regresije (1) a je slobodan izraz, a parametar b određuje nagib regresijske linije u odnosu na pravokutne koordinatne osi. U analitičkoj geometriji ovaj se parametar naziva faktor nagiba, a u biometriji - koeficijent regresije. Vizualni prikaz ovog parametra i položaja regresijskih linija Y na x i x na Y u sustavu pravokutnih koordinata daje sl.1.

Riža. 1 Y po X i X po Y regresijske linije u sustavu

pravokutne koordinate

Regresijske linije, kao što je prikazano na slici 1, sijeku se u točki O (,), što odgovara aritmetičkim srednjim vrijednostima znakova koji su međusobno povezani Y i x. Prilikom crtanja regresijskih grafova, vrijednosti nezavisne varijable X se crtaju duž apscise, a vrijednosti zavisne varijable, odnosno funkcije Y, se crtaju duž ordinate. Pravac AB koji prolazi točkom O (, ) odgovara potpunom (funkcionalnom) odnosu između varijabli Y i x kada je koeficijent korelacije . Što je veza između Y i x, što su regresijske linije bliže AB, i obrnuto, što je odnos između ovih vrijednosti slabiji, to su regresijske linije udaljenije od AB. U nedostatku veze između značajki, regresijske linije su pod pravim kutom jedna prema drugoj i .

Budući da regresijski pokazatelji dvosmjerno izražavaju korelaciju, regresijsku jednadžbu (1) treba napisati na sljedeći način:

Prema prvoj formuli, prosječne vrijednosti se određuju kada se predznak promijeni x po jedinici mjere, na drugom - prosječne vrijednosti kada se značajka promijeni po jedinici mjere Y.

Koeficijent regresije. Koeficijent regresije pokazuje kolika je u prosjeku vrijednost jednog obilježja g mijenja se kada druga mjerna jedinica, u korelaciji s Y znak x. Ovaj pokazatelj određen je formulom

Ovdje vrijednosti s pomnožite s veličinom intervala razreda λ ako su pronađeni varijacijskim serijama ili korelacijskim tablicama.

Koeficijent regresije može se izračunati zaobilazeći izračun standardnih odstupanja s g i s x prema formuli

Ako je koeficijent korelacije nepoznat, koeficijent regresije se određuje na sljedeći način:

Odnos regresije i koeficijenata korelacije. Uspoređujući formule (11.1) (tema 11) i (12.5), vidimo da njihov brojnik sadrži istu vrijednost, što ukazuje na povezanost ovih pokazatelja. Ovaj odnos se izražava jednakošću

Dakle, koeficijent korelacije jednak je geometrijskoj sredini koeficijenata b yx i b xy. Formula (6) omogućuje, prvo, iz poznatih vrijednosti koeficijenata regresije b yx i b xy odrediti koeficijent regresije R xy, i drugo, provjeriti ispravnost izračuna ovog pokazatelja korelacije R xy između različitih osobina x i Y.

Kao i koeficijent korelacije, koeficijent regresije karakterizira samo linearni odnos i popraćen je znakom plus za pozitivan odnos i znakom minus za negativan odnos.

Određivanje parametara linearne regresije. Poznato je da zbroj kvadrata odstupanja varijante x ja od prosjeka postoji najmanja vrijednost, tj. Ovaj teorem čini osnovu metode najmanjih kvadrata. S obzirom na linearnu regresiju [vidi formula (1)], zahtjev ovog teorema zadovoljava određeni sustav jednadžbi tzv normalan:

Zajedničko rješavanje ovih jednadžbi s obzirom na parametre a i b dovodi do sljedećih rezultata:

;

;

, odakle ja.

S obzirom na dvosmjernost odnosa između varijabli Y i x, formula za određivanje parametra a treba izraziti ovako:

i . (7)

Parametar b, ili koeficijent regresije, određuje se prema sljedećim formulama:

Konstrukcija empirijskih regresijskih nizova. U prisustvu velikog broja opažanja, regresijska analiza započinje konstrukcijom empirijskih regresijskih serija. Empirijske regresijske serije formira se izračunavanjem vrijednosti jednog varijabilnog atributa x prosječne vrijednosti drugog, u korelaciji s x znak Y. Drugim riječima, konstrukcija empirijskih regresijskih serija svodi se na pronalaženje grupnih sredstava u iz odgovarajućih vrijednosti znakova Y i X.

Empirijski regresijski niz je dvostruki niz brojeva koji se može prikazati točkama na ravnini, a zatim se spajanjem tih točaka ravnim segmentima može dobiti empirijski regresijski pravac. Empirijske regresijske serije, posebno njihove krivulje, tzv regresijske linije, daju vizualni prikaz oblika i čvrstoće korelacijske ovisnosti između različitih značajki.

Izjednačavanje empirijskih regresijskih nizova. Grafovi empirijskih regresijskih nizova u pravilu su isprekidane linije, a ne glatke. To se objašnjava činjenicom da, uz glavne razloge koji određuju opći obrazac u varijabilnosti koreliranih svojstava, na njihovu vrijednost utječe i utjecaj brojnih sekundarnih uzroka koji uzrokuju slučajne fluktuacije u čvorištima regresije. Da biste identificirali glavni trend (trend) konjugirane varijacije koreliranih značajki, trebate zamijeniti isprekidane linije glatkim regresijskim linijama koje teku glatko. Postupak zamjene isprekidanih linija glatkima naziva se poravnanje empirijskih serija i regresijske linije.

Metoda grafičkog poravnanja. Ovo je najjednostavnija metoda koja ne zahtijeva računalni rad. Njegova suština je sljedeća. Empirijska regresijska serija iscrtana je kao grafikon u pravokutnom koordinatnom sustavu. Zatim se vizualno ocrtavaju središnje točke regresije duž kojih se ravnalom ili uzorkom povlači puna linija. Nedostatak ove metode je očit: ne isključuje utjecaj individualnih karakteristika istraživača na rezultate poravnanja empirijskih regresijskih linija. Stoga, u slučajevima kada je potrebna veća točnost pri zamjeni isprekidanih regresijskih linija glatkim, koriste se druge metode poravnanja empirijskih serija.

Metoda pomičnog prosjeka. Bit ove metode svodi se na sekvencijalno izračunavanje aritmetičke sredine dva ili tri susjedna člana empirijskog niza. Ova metoda je posebno pogodna u slučajevima kada je empirijski niz predstavljen velikim brojem članova, tako da gubitak dva od njih - ekstremnih, koji je neizbježan kod ove metode izjednačavanja, neće značajno utjecati na njegovu strukturu.

Metoda najmanjeg kvadrata. Ovu metodu predložio je početkom 19. stoljeća A.M. Legendre i neovisno o njemu K. Gauss. Omogućuje vam najtočnije poravnanje empirijskih serija. Ova metoda, kao što je gore prikazano, temelji se na pretpostavci da je zbroj kvadrata odstupanja varijante x ja od njihovog prosjeka postoji minimalna vrijednost, tj. Otuda naziv metode, koja se koristi ne samo u ekologiji, već iu tehnologiji. Metoda najmanjih kvadrata je objektivna i univerzalna, koristi se u raznim slučajevima pri pronalaženju empirijskih jednadžbi regresijskih nizova i određivanju njihovih parametara.

Zahtjev metode najmanjih kvadrata je da se teorijske točke regresijske linije moraju dobiti na takav način da zbroj kvadrata odstupanja od tih točaka za empirijska opažanja g ja bila minimalna, tj.

Izračunavanjem minimuma ovog izraza u skladu s principima matematičke analize i njegovom transformacijom na određeni način, može se dobiti sustav tzv. normalne jednadžbe, u kojoj su nepoznate vrijednosti željeni parametri regresijske jednadžbe, a poznati koeficijenti određeni su empirijskim vrijednostima značajki, obično zbrojem njihovih vrijednosti i njihovih unakrsnih proizvoda.

Višestruka linearna regresija. Odnos između nekoliko varijabli obično se izražava jednadžbom višestruke regresije koja se može linearni i nelinearni. U svom najjednostavnijem obliku, višestruka regresija se izražava jednadžbom s dvije neovisne varijable ( x, z):

gdje a je slobodni član jednadžbe; b i c su parametri jednadžbe. Za pronalaženje parametara jednadžbe (10) (metodom najmanjih kvadrata) koristi se sljedeći sustav normalnih jednadžbi:

Redovi dinamike. Poravnanje redova. Promjena predznaka tijekom vremena formira tzv vremenske serije ili redovi dinamike. Karakteristična značajka takvih serija je da faktor vremena ovdje uvijek djeluje kao nezavisna varijabla X, a promjenjivi predznak je zavisna varijabla Y. Ovisno o regresijskom nizu, odnos između varijabli X i Y je jednostran, budući da faktor vremena ne ovisi o varijabilnosti obilježja. Unatoč ovim značajkama, vremenske serije mogu se usporediti s regresijskim serijama i obraditi istim metodama.

Kao i regresijske serije, na empirijske vremenske serije utječu ne samo glavni, već i brojni sekundarni (slučajni) čimbenici koji prikrivaju glavni trend u varijabilnosti obilježja, što se jezikom statistike naziva trend.

Analiza vremenskih serija počinje utvrđivanjem oblika trenda. Da bi se to postiglo, vremenski niz je prikazan kao linijski grafikon u pravokutnom koordinatnom sustavu. Istodobno, vremenske točke (godine, mjeseci i druge jedinice vremena) iscrtane su duž apscisne osi, a vrijednosti zavisne varijable Y iscrtane su duž ordinatne osi. je regresijska jednadžba u obliku odstupanja članova niza zavisne varijable Y od aritmetičke sredine niza nezavisne varijable X:

Ovdje je parametar linearne regresije.

Numeričke karakteristike niza dinamike. Glavne generalizirajuće numeričke karakteristike niza dinamike uključuju geometrijska sredina a njoj bliska aritmetička sredina. Oni karakteriziraju prosječnu stopu kojom se vrijednost zavisne varijable mijenja tijekom određenih vremenskih razdoblja:

Procjena varijabilnosti članova dinamičkog niza je standardna devijacija. Pri odabiru regresijskih jednadžbi za opis vremenske serije vodi se računa o obliku trenda koji može biti linearan (ili reduciran na linearan) i nelinearan. Ispravnost izbora regresijske jednadžbe obično se ocjenjuje sličnošću empirijski opaženih i izračunatih vrijednosti zavisne varijable. Točnija u rješavanju ovog problema je metoda regresijske analize varijance (tema 12 str.4).

Korelacija nizova dinamike.Često je potrebno usporediti dinamiku paralelnih vremenskih nizova koji su međusobno povezani nekim općim uvjetima, na primjer, kako bi se utvrdio odnos između poljoprivredne proizvodnje i prirasta stoke u određenom vremenskom razdoblju. U takvim slučajevima karakterizira se odnos između varijabli X i Y koeficijent korelacije R xy (u prisutnosti linearnog trenda).

Poznato je da je trend niza dinamike, u pravilu, zamagljen fluktuacijama u terminima niza zavisne varijable Y. Stoga se javlja dvostruki problem: mjerenje ovisnosti između uspoređivanih nizova, bez isključivanja trenda i mjerenje ovisnosti između susjednih članova iste serije, isključujući trend. U prvom slučaju pokazatelj bliskosti veze između uspoređivanih nizova dinamike je koeficijent korelacije(ako je odnos linearan), u drugom - koeficijent autokorelacije. Ovi pokazatelji imaju različite vrijednosti, iako se izračunavaju pomoću istih formula (vidi temu 11).

Lako je uočiti da na vrijednost koeficijenta autokorelacije utječe varijabilnost članova niza zavisne varijable: što članovi niza manje odstupaju od trenda, to je koeficijent autokorelacije veći, i obrnuto.

U prisutnosti korelacije između čimbenika i rezultirajućih znakova, liječnici često moraju odrediti koliko se vrijednost jednog znaka može promijeniti kada se drugi promijeni mjernom jedinicom koju je općenito prihvatio ili ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčica ili dječaka) ako se njihova visina poveća za 1 cm.U tu svrhu koristi se metoda regresijske analize.

Najčešće se metoda regresijske analize koristi za izradu normativnih ljestvica i standarda tjelesnog razvoja.

  1. Definicija regresije. Regresija je funkcija koja omogućuje, na temelju prosječne vrijednosti jednog atributa, određivanje prosječne vrijednosti drugog atributa koji je u korelaciji s prvim.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati prosječan broj prehlada na određenim vrijednostima prosječne mjesečne temperature zraka u jesensko-zimskom razdoblju.

  2. Definicija koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se vrijednost jednog atributa u prosjeku mijenja kada se drugi atribut povezan s njim promijeni prema utvrđenoj mjernoj jedinici.
  3. Formula koeficijenta regresije. R y / x \u003d r xy x (σ y / σ x)
    gdje je R y / x - koeficijent regresije;
    r xy - koeficijent korelacije između obilježja x i y;
    (σ y i σ x) - standardna odstupanja značajki x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature zraka u jesensko-zimskom razdoblju;
    σ y = 8,65 (standardna devijacija broja zaraznih prehlada).
    Dakle, R y/x je koeficijent regresije.
    R y / x \u003d -0,96 x (4,6 / 8,65) \u003d 1,8, tj. uz smanjenje prosječne mjesečne temperature zraka (x) za 1 stupanj, prosječan broj zaraznih prehlada (y) u jesensko-zimskom razdoblju promijenit će se za 1,8 slučajeva.

  4. Regresijska jednadžba. y \u003d M y + R y / x (x - M x)
    gdje je y prosječna vrijednost atributa, koju treba odrediti kada se promijeni prosječna vrijednost drugog atributa (x);
    x - poznata prosječna vrijednost drugog obilježja;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti značajki x i y.

    Na primjer, prosječan broj zaraznih prehlada (y) može se odrediti bez posebnih mjerenja pri bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako x = - 9 °, R y / x = 1,8 bolesti, M x = -7 °, M y = 20 bolesti, tada je y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova se jednadžba primjenjuje u slučaju pravocrtnog odnosa između dva obilježja (x i y).

  5. Svrha regresijske jednadžbe. Regresijska jednadžba koristi se za iscrtavanje regresijske linije. Potonji omogućuje, bez posebnih mjerenja, određivanje bilo koje prosječne vrijednosti (y) jednog atributa, ako se promijeni vrijednost (x) drugog atributa. Na temelju tih podataka gradi se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti srednje mjesečne temperature unutar raspona između izračunatih vrijednosti broja prehlada.
  6. Regresijska sigma (formula).
    gdje je σ Ru/x - sigma (standardna devijacija) regresije;
    σ y je standardna devijacija značajke y;
    r xy - koeficijent korelacije između obilježja x i y.

    Dakle, ako je σ y standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom razdoblju (x) je - 0,96, tada

  7. Svrha sigma regresije. Daje karakteristiku mjere raznolikosti rezultirajuće značajke (y).

    Na primjer, karakterizira raznolikost broja prehlada pri određenoj vrijednosti prosječne mjesečne temperature zraka u jesensko-zimskom razdoblju. Dakle, prosječni broj prehlada pri temperaturi zraka x 1 \u003d -6 ° može varirati od 15,78 bolesti do 20,62 bolesti.
    Pri x 2 = -9°, prosječan broj prehlada može varirati od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma koristi se u konstrukciji regresijske ljestvice, koja odražava odstupanje vrijednosti efektivnog atributa od njegove prosječne vrijednosti iscrtane na regresijskoj liniji.

  8. Podaci potrebni za izračunavanje i iscrtavanje regresijske ljestvice
    • koeficijent regresije - Ry/x;
    • regresijska jednadžba - y \u003d M y + R y / x (x-M x);
    • regresijska sigma - σ Rx/y
  9. Redoslijed izračuna i grafički prikaz regresijske ljestvice.
    • odrediti regresijski koeficijent formulom (vidi stavak 3). Primjerice, treba odrediti koliko će se prosječno promijeniti tjelesna težina (u određenoj dobi ovisno o spolu) ako se prosječna visina promijeni za 1 cm.
    • prema formuli regresijske jednadžbe (vidi stavak 4.) odredi kolika će biti prosječna npr. tjelesna težina (y, y 2, y 3 ...) * za određenu vrijednost rasta (x, x 2, x 3 ...) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrijednosti "x".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamijenivši njihove vrijednosti u formulu (vidi paragraf 6).
    • na temelju poznatih vrijednosti x 1, x 2, x 3 i njima odgovarajućih prosječnih vrijednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru / x) i najvećih (y + σ ru / x) vrijednosti \u200b\u200b(y) konstruiraju regresijsku ljestvicu.

      Za grafički prikaz regresijske skale, na grafikonu se prvo označavaju vrijednosti x, x 2 , x 3 (y-osa), tj. gradi se regresijska linija npr. ovisnost tjelesne težine (y) o visini (x).

      Zatim se u odgovarajućim točkama y 1 , y 2 , y 3 označavaju numeričke vrijednosti regresijske sigme, tj. na grafikonu pronađite najmanju i najveću vrijednost y 1 , y 2 , y 3 .

  10. Praktična uporaba regresijske ljestvice. Izrađuju se normativne ljestvice i standardi, posebice za tjelesni razvoj. Prema standardnoj ljestvici moguće je dati individualnu procjenu razvoja djece. Pritom se tjelesni razvoj ocjenjuje skladnim ako je npr. na određenoj visini tjelesna težina djeteta unutar jedne regresijske sigme prema prosječnoj izračunatoj jedinici tjelesne težine - (y) za danu visinu (x) ( y ± 1 σ Ry / x).

    Tjelesni razvoj smatra se disharmoničnim u pogledu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge regresijske sigme: (y ± 2 σ Ry/x)

    Tjelesni razvoj će biti izrazito disharmoničan i zbog prekomjerne i zbog nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističkog istraživanja tjelesnog razvoja petogodišnjih dječaka, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije prikazane su u tablici.

Potreban:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednadžbe odrediti kolika će biti očekivana tjelesna težina dječaka od 5 godina s visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati regresijsku sigmu, izgraditi regresijsku ljestvicu, grafički prikazati rezultate njezina rješenja;
  • izvući odgovarajuće zaključke.

Stanje problema i rezultati njegovog rješenja prikazani su u zbirnoj tablici.

stol 1

Uvjeti problema Rezultati rješenja problema
regresijska jednadžba sigma regresija regresijska ljestvica (očekivana tjelesna težina (u kg))
M σ r xy R y/x x Na σRx/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
Visina (x) 109 cm ± 4,4 cm +0,9 0,16 100 cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Tjelesna težina (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Odluka.

Izlaz. Dakle, regresijska ljestvica unutar izračunatih vrijednosti tjelesne težine omogućuje vam da je odredite za bilo koju drugu vrijednost rasta ili da procijenite individualni razvoj djeteta. Da biste to učinili, vratite okomicu na regresijsku liniju.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Javno zdravstvo i zdravstvena zaštita. Udžbenik za srednje škole. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medik V.A., Yuriev V.K. Tečaj predavanja iz javnog zdravlja i zdravstvene zaštite: 1. dio. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Vodič u 2 sveska). - St. Petersburg, 1998. -528 str.
  5. Kucherenko V.Z., Agarkov N.M. i dr. Socijalna higijena i organizacija zdravstvene zaštite (Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glantz. Medicinsko-biološka statistika. Po s engleskog. - M., Praksa, 1998. - 459 str.

U statističkom modeliranju, regresijska analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu više varijabli kada je fokus na odnosu između zavisne varijable i jedne ili više nezavisnih varijabli. Točnije, regresijska analiza pomaže vam razumjeti kako se tipična vrijednost zavisne varijable mijenja ako se jedna od nezavisnih varijabli promijeni dok druge nezavisne varijable ostanu fiksne.

U svim slučajevima ciljni rezultat je funkcija nezavisnih varijabli i naziva se regresijska funkcija. U regresijskoj analizi također je od interesa karakterizirati promjenu ovisne varijable kao funkciju regresije, koja se može opisati pomoću distribucije vjerojatnosti.

Zadaci regresijske analize

Ova statistička istraživačka metoda ima široku primjenu za prognoziranje, gdje njezina uporaba ima značajnu prednost, ali ponekad može dovesti do iluzije ili lažnih odnosa, pa se preporuča oprezno je koristiti u ovom pitanju, budući da npr. korelacija ne znači uzročnost.

Razvijen je velik broj metoda za izvođenje regresijske analize, poput linearne i obične regresije najmanjih kvadrata, koje su parametarske. Njihova bit je da je regresijska funkcija definirana u terminima konačnog broja nepoznatih parametara koji se procjenjuju iz podataka. Neparametrijska regresija dopušta da njena funkcija leži u određenom skupu funkcija, koji može biti beskonačno dimenzionalan.

Kao statistička istraživačka metoda, regresijska analiza u praksi ovisi o obliku procesa generiranja podataka i načinu na koji se odnosi na regresijski pristup. Budući da je pravi oblik generiranja podataka u procesu obično nepoznat broj, regresijska analiza podataka često u određenoj mjeri ovisi o pretpostavkama o procesu. Te se pretpostavke ponekad mogu provjeriti ako je dostupno dovoljno podataka. Regresijski modeli često su korisni čak i kada su pretpostavke umjereno prekršene, iako možda neće raditi najbolje.

U užem smislu, regresija se može posebno odnositi na procjenu kontinuiranih varijabli odgovora, za razliku od diskretnih varijabli odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable naziva se i metrička regresija kako bi se razlikovao od srodnih problema.

Povijest

Najraniji oblik regresije je dobro poznata metoda najmanjih kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss primijenili su metodu na problem određivanja orbita tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih malih planeta) iz astronomskih promatranja. Gauss je 1821. objavio daljnji razvoj teorije najmanjih kvadrata, uključujući varijantu Gauss-Markovljevog teorema.

Izraz "regresija" skovao je Francis Galton u 19. stoljeću kako bi opisao biološki fenomen. Zaključak je bio da se rast potomaka od rasta predaka u pravilu smanjuje do normalnog prosjeka. Za Galtona, regresija je imala samo ovo biološko značenje, ali kasnije su njegov rad preuzeli Udni Yoley i Karl Pearson i odveli ga u općenitiji statistički kontekst. U radu Yulea i Pearsona, zajednička distribucija varijabli odgovora i objašnjenja smatra se Gaussovom. Tu je pretpostavku odbacio Fischer u radovima iz 1922. i 1925. godine. Fisher je predložio da je uvjetna distribucija varijable odgovora Gaussova, ali zajednička distribucija ne mora biti. U tom smislu, Fisherov prijedlog bliži je Gaussovoj formulaciji iz 1821. godine. Prije 1970. ponekad je trebalo i do 24 sata da se dobije rezultat regresijske analize.

Metode regresijske analize i dalje su područje aktivnog istraživanja. Posljednjih desetljeća razvijene su nove metode za robusnu regresiju; regresije koje uključuju korelirane odgovore; regresijske metode koje prilagođavaju različite vrste podataka koji nedostaju; neparametarska regresija; metode Bayesove regresije; regresije u kojima se prediktorske varijable mjere s greškom; regresije s više prediktora nego opažanja i uzročni zaključci s regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, koji mogu biti skalari ili vektori.
  • Neovisne varijable, X.
  • Zavisne varijable, Y.

U raznim područjima znanosti u kojima se primjenjuje regresijska analiza koriste se različiti termini umjesto zavisnih i nezavisnih varijabli, ali u svim slučajevima regresijski model povezuje Y s funkcijom od X i β.

Aproksimacija se obično formulira kao E (Y | X) = F (X, β). Za izvođenje regresijske analize potrebno je odrediti oblik funkcije f. Rjeđe se temelji na znanju o odnosu između Y i X koje se ne oslanja na podatke. Ako takvo znanje nije dostupno, odabire se fleksibilan ili prikladan oblik F.

Zavisna varijabla Y

Pretpostavimo sada da vektor nepoznatih parametara β ima duljinu k. Za izvođenje regresijske analize korisnik mora dati informacije o ovisnoj varijabli Y:

  • Ako se promatra N podatkovnih točaka oblika (Y, X), gdje je N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ako se promatra točno N = K, a funkcija F je linearna, tada se jednadžba Y = F(X, β) može riješiti točno, a ne približno. Ovo se svodi na rješavanje skupa N-jednadžbi s N-nepoznatim (elementima od β) koje imaju jedinstveno rješenje sve dok je X linearno neovisan. Ako je F nelinearan, rješenje možda ne postoji ili može postojati mnogo rješenja.
  • Najčešća situacija je kada postoji N > točaka na podacima. U ovom slučaju postoji dovoljno informacija u podacima za procjenu jedinstvene vrijednosti za β koja najbolje odgovara podacima, a regresijski model kada se primijeni na podatke može se promatrati kao nadjačani sustav u β.

U potonjem slučaju, regresijska analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koje će, na primjer, minimizirati udaljenost između izmjerene i predviđene vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresijska analiza koristi višak informacija za pružanje statističkih informacija o nepoznatim parametrima β i predviđenim vrijednostima zavisne varijable Y.

Potreban broj neovisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β 0 , β 1 i β 2 . Pretpostavimo da eksperimentator izvrši 10 mjerenja iste vrijednosti nezavisne varijable vektora X. U ovom slučaju regresijska analiza ne daje jedinstven skup vrijednosti. Najbolje što možete učiniti je procijeniti srednju vrijednost i standardnu ​​devijaciju zavisne varijable Y. Slično tome, mjerenjem dvije različite vrijednosti X, možete dobiti dovoljno podataka za regresiju s dvije nepoznanice, ali ne i za tri ili više nepoznanica.

Ako su eksperimentatorova mjerenja obavljena na tri različite vrijednosti nezavisne vektorske varijable X, tada bi regresijska analiza dala jedinstven skup procjena za tri nepoznata parametra u β.

U slučaju opće linearne regresije, gornja izjava je ekvivalentna zahtjevu da je matrica X T X invertibilna.

Statističke pretpostavke

Kada je broj mjerenja N veći od broja nepoznatih parametara k i pogreške mjerenja ε i , tada se u pravilu višak informacija sadržanih u mjerenjima distribuira i koristi za statistička predviđanja u vezi s nepoznatim parametrima. Ovaj višak informacija naziva se stupanj slobode regresije.

Temeljne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorkovanje je reprezentativno za predviđanje zaključivanja.
  • Pogreška je slučajna varijabla sa srednjom vrijednošću nula, koja je uvjetovana eksplanatornim varijablama.
  • Neovisne varijable mjere se bez grešaka.
  • Kao nezavisne varijable (prediktori) one su linearno neovisne, odnosno nijedan prediktor nije moguće izraziti kao linearnu kombinaciju ostalih.
  • Pogreške su nekorelirane, to jest matrica kovarijancije pogrešaka dijagonala i svaki različit od nule element je varijanca pogreške.
  • Varijanca pogreške je konstantna kroz promatranja (homoskedastičnost). Ako nije, tada se mogu koristiti ponderirani najmanji kvadrati ili druge metode.

Ovi dovoljni uvjeti za procjenu najmanjih kvadrata imaju tražena svojstva, posebice ove pretpostavke znače da će procjene parametara biti objektivne, dosljedne i učinkovite, posebno kada se uzmu u obzir u klasi linearnih procjena. Važno je napomenuti da stvarni podaci rijetko zadovoljavaju uvjete. Odnosno, metoda se koristi čak i ako pretpostavke nisu točne. Odstupanja od pretpostavki ponekad se mogu koristiti kao mjera koliko je model koristan. Mnoge od ovih pretpostavki mogu se ublažiti naprednijim metodama. Izvješća o statističkoj analizi obično uključuju analizu testova na uzorku podataka i metodologije za korisnost modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti izmjerene na točkama. Mogu postojati prostorni trendovi i prostorne autokorelacije u varijablama koje krše statističke pretpostavke. Geografska ponderirana regresija jedina je metoda koja se bavi takvim podacima.

U linearnoj regresiji, značajka je da je zavisna varijabla, koja je Y i , linearna kombinacija parametara. Na primjer, u jednostavnoj linearnoj regresiji, n-točkasto modeliranje koristi jednu nezavisnu varijablu, x i, i dva parametra, β 0 i β 1 .

U višestrukoj linearnoj regresiji postoji nekoliko neovisnih varijabli ili njihovih funkcija.

Kada se nasumično uzorkuje iz populacije, njegovi parametri omogućuju dobivanje uzorka linearnog regresijskog modela.

S ovog aspekta najpopularnija je metoda najmanjih kvadrata. Pruža procjene parametara koje minimiziraju zbroj kvadrata reziduala. Ova vrsta minimizacije (što je tipično za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednadžbi i skupa linearnih jednadžbi s parametrima, koji se rješavaju da bi se dobile procjene parametara.

Pretpostavljajući nadalje da se pogreška populacije općenito širi, istraživač može koristiti te procjene standardnih pogrešaka za stvaranje intervala pouzdanosti i izvođenje testiranja hipoteza o njezinim parametrima.

Nelinearna regresijska analiza

Primjer u kojem funkcija nije linearna s obzirom na parametre pokazuje da bi zbroj kvadrata trebalo minimizirati iterativnim postupkom. Ovo uvodi mnoge komplikacije koje definiraju razlike između linearnih i nelinearnih metoda najmanjih kvadrata. Posljedično, rezultati regresijske analize pri korištenju nelinearne metode ponekad su nepredvidivi.

Izračun snage i veličine uzorka

Ovdje u pravilu ne postoje konzistentne metode u pogledu broja promatranja u odnosu na broj nezavisnih varijabli u modelu. Prvo pravilo predložili su Dobra i Hardin i izgleda kao N = t^n, gdje je N veličina uzorka, n broj objašnjavajućih varijabli, a t broj promatranja potrebnih za postizanje željene točnosti ako je model imao samo jedna eksplanatorna varijabla. Na primjer, istraživač gradi linearni regresijski model koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet opažanja za točno određivanje linije (m), tada je najveći broj varijabli objašnjenja koje model može podržati 4.

Druge metode

Iako se parametri regresijskog modela obično procjenjuju metodom najmanjih kvadrata, postoje druge metode koje se koriste puno rjeđe. Na primjer, ovo su sljedeće metode:

  • Bayesove metode (primjerice, Bayesova metoda linearne regresije).
  • Postotna regresija koja se koristi za situacije u kojima se smanjenje postotnih pogrešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja su robusnija u prisutnosti odstupanja što dovodi do kvantilne regresije.
  • Neparametarska regresija koja zahtijeva veliki broj promatranja i izračuna.
  • Udaljenost metrike učenja koja se uči u potrazi za smislenom metrikom udaljenosti u zadanom ulaznom prostoru.

Softver

Svi glavni statistički softverski paketi izvode se pomoću regresijske analize najmanjih kvadrata. Jednostavna linearna regresija i višestruka regresijska analiza mogu se koristiti u nekim aplikacijama za proračunske tablice, kao iu nekim kalkulatorima. Dok mnogi paketi statističkog softvera mogu izvoditi različite vrste neparametarske i robusne regresije, te su metode manje standardizirane; različiti softverski paketi implementiraju različite metode. Specijalizirani regresijski softver razvijen je za korištenje u područjima kao što su analiza ankete i neuroimaging.