Biografije Karakteristike Analiza

Analiza linearne regresije. Metode matematičke statistike

REZULTATI

Tabela 8.3a. Statistika regresije
Statistika regresije
Višestruki R 0,998364
R-kvadrat 0,99673
Normalizirani R-kvadrat 0,996321
standardna greška 0,42405
Zapažanja 10

Pogledajmo prvo gornji dio proračuna predstavljenih u Tabeli 8.3a, statistiku regresije.

Vrijednost R-kvadrat, koja se također naziva mjera sigurnosti, karakterizira kvalitet rezultirajuće linije regresije. Ovaj kvalitet se izražava stepenom korespondencije između originalnih podataka i regresionog modela (izračunati podaci). Mjera sigurnosti je uvijek unutar intervala.

U većini slučajeva, vrijednost R-kvadrata je između ovih vrijednosti, koje se nazivaju ekstremima, tj. između nule i jedan.

Ako je vrijednost R-kvadrata blizu jedan, to znači da konstruirani model objašnjava gotovo svu varijabilnost odgovarajućih varijabli. Nasuprot tome, vrijednost R-kvadrata blizu nule znači loš kvalitet konstruiranog modela.

U našem primjeru, mjera sigurnosti je 0,99673, što ukazuje na vrlo dobro uklapanje linije regresije sa originalnim podacima.

Višestruki R- koeficijent višestruke korelacije R - izražava stepen zavisnosti nezavisnih varijabli (X) i zavisne varijable (Y).

Višestruki R je jednak kvadratnom korijenu koeficijenta determinacije, ova vrijednost ima vrijednosti u rasponu od nule do jedan.

U jednostavnoj linearnoj regresionoj analizi, višestruki R je jednak Pearsonovom koeficijentu korelacije. Zaista, višestruki R u našem slučaju jednak je Pearsonovom koeficijentu korelacije iz prethodnog primjera (0,998364).

Tabela 8.3b. Regresijski koeficijenti
Odds standardna greška t-statistika
Y-raskrsnica 2,694545455 0,33176878 8,121757129
Varijabla X 1 2,305454545 0,04668634 49,38177965
* Navedena je skraćena verzija proračuna

Sada razmotrite srednji dio proračuna prikazanih u tabeli 8.3b. Ovdje je dat koeficijent regresije b (2,305454545) i pomak duž y-ose, tj. konstanta a (2,694545455).

Na osnovu proračuna, možemo napisati regresionu jednačinu na sljedeći način:

Y= x*2,305454545+2,694545455

Smjer odnosa između varijabli određuje se na osnovu znakova (negativnih ili pozitivnih) koeficijenti regresije(koeficijent b).

Ako je znak na koeficijent regresije- pozitivan, odnos zavisne varijable sa nezavisnom će biti pozitivan. U našem slučaju predznak koeficijenta regresije je pozitivan, pa je i odnos pozitivan.

Ako je znak na koeficijent regresije- negativan, odnos između zavisne varijable i nezavisne varijable je negativan (inverzan).

U tabeli 8.3c. prikazani su rezultati izlaza reziduala. Da bi se ovi rezultati pojavili u izvještaju, potrebno je aktivirati checkbox "Residuals" prilikom pokretanja alata "Regresija".

PREOSTALO POVLAČENJE

Tabela 8.3c. Ostaje
Opservacija Predviđeno Y Ostaje Standardni bilansi
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Koristeći ovaj dio izvještaja, možemo vidjeti odstupanja svake tačke od konstruisane linije regresije. Najveća apsolutna vrijednost

Predavanje 3

Regresiona analiza.

1) Numeričke karakteristike regresije

2) Linearna regresija

3) Nelinearna regresija

4) Višestruka regresija

5) Korišćenje MS EXCEL-a za izvođenje regresione analize

Alat za kontrolu i evaluaciju - testni zadaci

1. Numeričke karakteristike regresije

Regresiona analiza je statistička metoda za proučavanje uticaja jedne ili više nezavisnih varijabli na zavisnu varijablu. Nezavisne varijable se inače nazivaju regresori ili prediktori, a zavisne varijable se nazivaju kriterijumi. Terminologija zavisnih i nezavisnih varijabli odražava samo matematičku zavisnost varijabli, a ne odnos uzroka i posljedice.

Ciljevi regresione analize

  • Određivanje stepena determinisanosti varijacije kriterijumske (zavisne) varijable pomoću prediktora (nezavisne varijable).
  • Predviđanje vrijednosti zavisne varijable koristeći nezavisnu(e) varijablu(e).
  • Određivanje doprinosa pojedinačnih nezavisnih varijabli varijaciji zavisne.

Regresionom analizom se ne može utvrditi da li postoji veza između varijabli, jer je postojanje takve veze preduslov za primenu analize.

Da biste izvršili regresijsku analizu, prvo se morate upoznati sa osnovnim konceptima statistike i teorije vjerovatnoće.

Osnovne numeričke karakteristike diskretnih i kontinuiranih slučajnih varijabli: matematičko očekivanje, varijansa i standardna devijacija.

Slučajne varijable se dijele u dvije vrste:

  • Diskretno, koje može uzeti samo određene, unaprijed određene vrijednosti (na primjer, vrijednosti brojeva na gornjoj strani bačene kocke ili redne vrijednosti tekućeg mjeseca);
  • · kontinuirane (najčešće - vrijednosti nekih fizičkih veličina: težine, udaljenosti, temperature itd.), koje, prema zakonima prirode, mogu poprimiti bilo koje vrijednosti, barem u određenom intervalu.

Zakon distribucije slučajne varijable je korespondencija između mogućih vrijednosti diskretne slučajne varijable i njenih vjerovatnoća, obično zapisanih u tabeli:

Statistička definicija vjerovatnoće se izražava u terminima relativne učestalosti slučajnog događaja, odnosno nalazi se kao omjer broja slučajnih varijabli i ukupnog broja slučajnih varijabli.

Matematičko očekivanje diskretne slučajne varijableX naziva se zbroj proizvoda vrijednosti količine X na vjerovatnoću ovih vrijednosti. Matematičko očekivanje se označava sa ili M(X) .

n

= M(X) = x 1 str 1 + x 2 str 2 +… + x n p n = S x i pi

i=1

Disperzija slučajne varijable u odnosu na njeno matematičko očekivanje određuje se pomoću numeričke karakteristike koja se naziva disperzija. Jednostavno rečeno, varijansa je širenje slučajne varijable oko srednje vrijednosti. Da biste razumjeli suštinu disperzije, razmotrite primjer. Prosječna plata u zemlji je oko 25 hiljada rubalja. Odakle dolazi ovaj broj? Najvjerovatnije se sve plate sabiraju i dijele sa brojem zaposlenih. U ovom slučaju postoji vrlo velika disperzija (minimalna plata je oko 4 hiljade rubalja, a maksimalna oko 100 hiljada rubalja). Kada bi svi imali istu platu, onda bi disperzija bila nula i ne bi bilo širenja.

Disperzija diskretne slučajne varijableX naziva se matematičko očekivanje kvadrata razlike slučajne varijable i njenog matematičkog očekivanja:

D = M [ ((X - M (X)) 2 ]

Koristeći definiciju matematičkog očekivanja za izračunavanje varijanse, dobijamo formulu:

D \u003d S (x i - M (X)) 2 p i

Varijanca ima dimenziju kvadrata slučajne varijable. U slučajevima kada je potrebno imati numeričku karakteristiku disperzije mogućih vrijednosti u istoj dimenziji kao i sama slučajna varijabla, koristi se standardna devijacija.

Standardna devijacija slučajna varijabla naziva se kvadratni korijen njene varijanse.

Srednja kvadratna devijacija je mjera disperzije vrijednosti slučajne varijable oko njenog matematičkog očekivanja.

Primjer.

Zakon distribucije slučajne varijable X dat je sljedećom tablicom:

Pronađite njegovo matematičko očekivanje, varijansu i standardnu ​​devijaciju .

Koristimo gornje formule:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 = 1,6

Primjer.

U novčanoj lutriji igra se 1 dobitak od 1000 rubalja, 10 dobitaka od 100 rubalja i 100 dobitaka od po 1 rublje sa ukupnim brojem tiketa od 10 000. Napravite zakon o raspodjeli za slučajni dobitak X za vlasnika jedne loto listića i odrediti matematičko očekivanje, varijansu i standardnu ​​devijaciju slučajne varijable.

X 1 = 1000, X 2 = 100, X 3 = 1, X 4 \u003d 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10 000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889 .

Rezultate stavljamo u tabelu:

Matematičko očekivanje - zbir uparenih proizvoda vrijednosti slučajne varijable prema njihovoj vjerovatnoći. Za ovaj problem preporučljivo je izračunati ga po formuli

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rubalja.

Dobili smo pravu "fer" cijenu karte.

D \u003d S (x i - M (X)) 2 p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Funkcija distribucije kontinuiranih slučajnih varijabli

Vrijednost koja će kao rezultat testa poprimiti jednu moguću vrijednost (ne zna se unaprijed koju), naziva se slučajna varijabla. Kao što je gore spomenuto, slučajne varijable su diskretne (diskontinuirane) i kontinuirane.

Diskretna varijabla je slučajna varijabla koja poprima odvojene moguće vrijednosti s određenim vjerovatnoćama koje se mogu numerisati.

Kontinuirana varijabla je slučajna varijabla koja može poprimiti sve vrijednosti iz nekog konačnog ili beskonačnog intervala.

Do sada smo se ograničili na samo jednu „raznovrsnost“ slučajnih varijabli – diskretne, tj. uzimajući konačne vrijednosti.

Ali teorija i praksa statistike zahtijevaju korištenje koncepta kontinuirane slučajne varijable - dopuštajući bilo koje numeričke vrijednosti iz bilo kojeg intervala.

Zakon distribucije kontinuirane slučajne varijable se prikladno specificira korištenjem takozvane funkcije gustoće vjerovatnoće. f(x). Vjerovatnoća P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Grafikon funkcije f (x) naziva se kriva distribucije. Geometrijski, vjerovatnoća da slučajna varijable padne u interval (a; b) jednaka je površini odgovarajućeg krivolinijskog trapeza, ograničenog krivuljom raspodjele, osom Ox i pravim linijama x \u003d a, x \ u003d b.

P(a£X

Ako se od složenog događaja oduzme konačni ili prebrojiv skup, vjerovatnoća novog događaja će ostati nepromijenjena.

Funkcija f(x) - numerička skalarna funkcija realnog argumenta x naziva se gustoća vjerovatnoće i postoji u tački x ako u ovoj tački postoji granica:

Svojstva gustoće vjerovatnoće:

  1. Gustoća vjerovatnoće je nenegativna funkcija, tj. f(x) ≥ 0

(ako su sve vrijednosti slučajne varijable X u intervalu (a; b), onda posljednja

jednakost se može zapisati kao ∫ f (x) dx = 1).

Razmotrimo sada funkciju F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

kontinuirana slučajna varijabla X, tada je F (x) = ∫ f(x) dx = 1).

Iz posljednje jednakosti slijedi da je f (x) = F" (x)

Ponekad se funkcija f(x) naziva funkcija distribucije diferencijalne vjerovatnoće, a funkcija F(x) se naziva kumulativna funkcija raspodjele vjerovatnoće.

Napominjemo najvažnija svojstva funkcije raspodjele vjerovatnoće:

  1. F(x) je neopadajuća funkcija.
  2. F(-∞)=0.
  3. F(+∞)=1.

Koncept funkcije distribucije je centralni za teoriju vjerovatnoće. Koristeći ovaj koncept, može se dati još jedna definicija kontinuirane slučajne varijable. Slučajna varijabla se naziva kontinuiranom ako je njena integralna funkcija distribucije F(x) kontinuirana.

Numeričke karakteristike kontinuiranih slučajnih varijabli

Matematičko očekivanje, varijansa i drugi parametri bilo koje slučajne varijable se gotovo uvijek izračunavaju korištenjem formula koje slijede iz zakona distribucije.

Za kontinuiranu slučajnu varijablu, matematičko očekivanje se izračunava po formuli:

M(X) = ∫ x f(x) dx

disperzija:

D(X) = ∫ ( x- M (X)) 2 f(x) dx ili D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Linearna regresija

Neka su komponente X i Y dvodimenzionalne slučajne varijable (X, Y) zavisne. Pretpostavit ćemo da se jedan od njih može približno predstaviti kao linearna funkcija drugog, na primjer

Y ≈ g(X) = α + βX, te odrediti parametre α i β metodom najmanjih kvadrata.

Definicija. Poziva se funkcija g(X) = α + βX najbolja aproksimacija Y u smislu metode najmanjih kvadrata, ako matematičko očekivanje M(Y - g(X)) 2 ima najmanju moguću vrijednost; poziva se funkcija g(X). srednje kvadratna regresija Y do X.

Teorema Linearna srednja kvadratna regresija Y na X je:

gdje je koeficijent korelacije X i Y.

Koeficijenti jednačine.

Može se provjeriti da je za ove vrijednosti funkcija funkcije F(α, β)

F(α, β ) = M(Y - α - βX)² ima minimum, što dokazuje tvrdnju teoreme.

Definicija. Koeficijent se zove koeficijent regresije Y na X, a prava linija - - direktna srednja kvadratna regresija Y na X.

Zamjenom koordinata stacionarne tačke u jednakost, možemo pronaći minimalnu vrijednost funkcije F(α, β) jednaku Ova vrijednost se naziva rezidualna disperzija Y u odnosu na X i karakterizira količinu dozvoljene greške prilikom zamjene Y sa

g(X) = α + βX. Kod , preostala varijansa je 0, odnosno jednakost nije približna, već tačna. Dakle, kada su Y i X povezani linearnom funkcionalnom zavisnošću. Slično, možete dobiti ravnu liniju srednje kvadratne regresije X na Y:

i rezidualna varijansa X u odnosu na Y. Za obje direktne regresije se poklapaju. Upoređujući regresijske jednačine Y na X i X na Y i rješavajući sistem jednačina, možete pronaći točku presjeka regresijskih linija - tačku s koordinatama (t x, t y), tzv. centar zajedničke distribucije X i Y vrijednosti.

Razmotrićemo algoritam za sastavljanje regresionih jednačina iz udžbenika V. E. Gmurmana „Teorija verovatnoće i matematička statistika“, str.256.

1) Sastavite proračunsku tabelu u kojoj će biti zabeleženi brojevi uzoraka elemenata, opcije uzorka, njihovi kvadrati i proizvod.

2) Izračunajte zbir po svim kolonama osim broja.

3) Izračunajte prosječne vrijednosti za svaku količinu, disperziju i standardne devijacije.

5) Testirajte hipotezu o postojanju veze između X i Y.

6) Sastavite jednačine obe regresione linije i nacrtajte grafikone ovih jednačina.

Nagib pravolinijske regresije Y na X je koeficijent regresije uzorka

Koeficijent b=

Dobijamo željenu jednačinu regresije Y na X:

Y \u003d 0,202 X + 1,024

Slično, jednačina regresije X na Y:

Nagib pravolinijske regresije Y na X je koeficijent regresije uzorka pxy:

Koeficijent b=

X \u003d 4,119 Y - 3,714

3. Nelinearna regresija

Ako postoje nelinearni odnosi između ekonomskih pojava, onda se oni izražavaju pomoću odgovarajućih nelinearnih funkcija.

Postoje dvije klase nelinearnih regresija:

1. Regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, na primjer:

Polinomi različitih stupnjeva

Jednakostrana hiperbola - ;

Semilogaritamska funkcija - .

2. Regresije koje su nelinearne u smislu procijenjenih parametara, na primjer:

Snaga - ;

Demonstrativna -;

Eksponencijalno - .

Nelinearne regresije u odnosu na uključene varijable se jednostavnom promjenom varijabli svode na linearni oblik, a daljnja procjena parametara se vrši metodom najmanjih kvadrata. Razmotrimo neke funkcije.

Parabola drugog stepena redukuje se na linearni oblik zamjenom: . Kao rezultat, dolazimo do dvofaktorske jednačine, čija procjena parametara metodom najmanjih kvadrata dovodi do sistema jednadžbi:

Parabola drugog stepena se obično koristi u slučajevima kada se za određeni interval vrednosti faktora menja priroda odnosa karakteristika koje se razmatraju: direktni odnos se menja u inverzan ili inverzan u direktan.

Jednakostranična hiperbola se može koristiti za karakterizaciju odnosa između specifičnih troškova sirovina, materijala, goriva i obima proizvodnje, vremena cirkulacije robe i vrijednosti prometa. Njegov klasični primjer je Phillipsova kriva, koja karakterizira nelinearni odnos između stope nezaposlenosti x i procentualno povećanje plata y.

Hiperbola se svodi na linearnu jednadžbu jednostavnom zamjenom: . Takođe možete koristiti metodu najmanjih kvadrata za izgradnju sistema linearnih jednačina.

Na sličan način, zavisnosti se svode na linearni oblik: , i drugi.

Za opisivanje Engelove krive (matematički opis odnosa između udjela potrošnje na trajna dobra i ukupne potrošnje (ili prihoda)) koriste se jednakostranična hiperbola i polulogaritamska kriva. Jednačine u koje su uključene koriste se u studijama produktivnosti, intenziteta rada poljoprivredne proizvodnje.

4. Višestruka regresija

Višestruka regresija - jednačina veze sa više nezavisnih varijabli:

gdje je - zavisna varijabla (rezultantni znak);

Nezavisne varijable (faktori).

Za izgradnju jednadžbe višestruke regresije najčešće se koriste sljedeće funkcije:

linearni -

snaga -

izlagač -

hiperbola - .

Možete koristiti druge funkcije koje se mogu svesti na linearni oblik.

Za procjenu parametara jednačine višestruke regresije koristi se metoda najmanjih kvadrata (LSM). Za linearne jednadžbe i nelinearne jednadžbe svedene na linearne, konstruiran je sljedeći sistem normalnih jednadžbi čije rješenje omogućava da se dobiju procjene parametara regresije:

Da bi se to riješilo, može se primijeniti metoda determinanti:

gdje je determinanta sistema;

Privatne odrednice; koji se dobijaju zamenom odgovarajuće kolone matrice determinante sistema podacima sa leve strane sistema.

Druga vrsta jednačine višestruke regresije je jednačina regresije standardizovane skale, LSM je primenljiv na jednadžbu višestruke regresije na standardizovanoj skali.

5. UpotrebaGOSPOĐAEXCELda izvrši regresionu analizu

Regresionom analizom utvrđuje se oblik odnosa između slučajne varijable Y (zavisne) i vrijednosti jedne ili više varijabli (nezavisne), a vrijednosti potonje se smatraju tačno datim. Takvu zavisnost obično određuje neki matematički model (regresiona jednačina) koji sadrži nekoliko nepoznatih parametara. U toku regresione analize, na osnovu podataka uzorka, pronalaze se procjene ovih parametara, utvrđuju se statističke greške procjena ili granice intervala povjerenja i provjerava usklađenost (adekvatnost) prihvaćenog matematičkog modela sa eksperimentalnim podacima.

U analizi linearne regresije pretpostavlja se da je odnos između slučajnih varijabli linearan. U najjednostavnijem slučaju, u modelu uparene linearne regresije, postoje dvije varijable X i Y. I to je potrebno za n parova opservacija (X1, Y1), (X2, Y2), ..., (Xn, Yn) da se izgradi (odabere) prava linija, nazvana regresiona linija, koja "najbolje" aproksimira posmatrane vrednosti. Jednačina ove linije y=ax+b je jednadžba regresije. Koristeći jednadžbu regresije, možete predvidjeti očekivanu vrijednost zavisne varijable y koja odgovara datoj vrijednosti nezavisne varijable x. U slučaju kada se razmatra zavisnost između jedne zavisne varijable Y i više nezavisnih varijabli X1, X2, ..., Xm, govori se o višestrukoj linearnoj regresiji.

U ovom slučaju, jednačina regresije ima oblik

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

gdje su a0, a1, a2, …, am koeficijenti regresije koje treba odrediti.

Koeficijenti regresijske jednadžbe određuju se metodom najmanjih kvadrata, čime se postiže minimalni mogući zbroj kvadratnih razlika između stvarnih vrijednosti varijable Y i onih izračunatih pomoću regresijske jednadžbe. Tako se, na primjer, jednadžba linearne regresije može konstruirati čak i kada ne postoji linearna korelacija.

Mjera efikasnosti regresijskog modela je koeficijent determinacije R2 (R-kvadrat). Koeficijent determinacije može imati vrijednosti između 0 i 1 određuje s kojim stupnjem tačnosti rezultirajuća regresijska jednadžba opisuje (aproksimira) originalne podatke. Značaj regresijskog modela se istražuje i F-testom (Fisher), a pouzdanost razlike koeficijenata a0, a1, a2, ..., am od nule provjerava se Studentovim testom.

U Excelu se eksperimentalni podaci aproksimiraju linearnom jednadžbom do 16. reda:

y = a0+a1x1+a2x2+…+a16x16

Za dobijanje koeficijenata linearne regresije može se koristiti procedura "Regresija" iz paketa analize. Također, funkcija LINEST pruža potpune informacije o jednačini linearne regresije. Osim toga, funkcije SLOPE i INTERCEPT se mogu koristiti za dobivanje parametara jednadžbe regresije, a funkcije TREND i FORECAST se mogu koristiti za dobivanje predviđenih Y vrijednosti u željenim točkama (za regresiju u paru).

Razmotrimo detaljno primjenu funkcije LINEST (poznato_y, [poznato_x], [konstanta], [statistika]): poznato_y - raspon poznatih vrijednosti zavisnog parametra Y. U parnoj regresijskoj analizi može imati bilo koji oblik; u množini, to mora biti ili red ili kolona; poznati_x je raspon poznatih vrijednosti jednog ili više nezavisnih parametara. Mora imati isti oblik kao Y raspon (za više parametara, više kolona ili redova, respektivno); konstanta - boolean argument. Ako je, na osnovu praktičnog značenja zadatka regresione analize, neophodno da linija regresije prolazi kroz ishodište, odnosno da je slobodni koeficijent jednak 0, vrijednost ovog argumenta treba postaviti na 0 (ili “ lažno”). Ako je vrijednost postavljena na 1 (ili "tačno") ili izostavljena, tada se slobodni koeficijent izračunava na uobičajen način; statistika je logički argument. Ako je vrijednost postavljena na 1 (ili "tačno"), onda se vraća dodatna statistika regresije (pogledajte tabelu) koja se koristi za procjenu učinkovitosti i značaja modela. U općem slučaju, za parnu regresiju y=ax+b, rezultat primjene funkcije LINEST izgleda ovako:

Table. Izlazni raspon LINEST za parnu regresijsku analizu

U slučaju višestruke regresione analize za jednačinu y=a0+a1x1+a2x2+…+amxm, koeficijenti am,…,a1,a0 su prikazani u prvom redu, a standardne greške za ove koeficijente su prikazane u drugom redu . Redovi 3-5, osim prve dvije kolone ispunjene statistikom regresije, dat će #N/A.

Funkciju LINEST treba unijeti kao formulu niza, prvo odabrati niz željene veličine za rezultat (m+1 stupac i 5 redova ako je potrebna statistika regresije) i dovršiti unos formule pritiskom na CTRL+SHIFT+ENTER.

Rezultat za naš primjer:

Osim toga, program ima ugrađenu funkciju - Analiza podataka na kartici Podaci.

Može se koristiti i za izvođenje regresione analize:

Na slajdu - rezultat regresione analize izvršene pomoću Data Analysis.

REZULTATI

Statistika regresije

Višestruki R

R-kvadrat

Normalizirani R-kvadrat

standardna greška

Zapažanja

Analiza varijanse

Značaj F

Regresija

Odds

standardna greška

t-statistika

P-vrijednost

donjih 95%

Top 95%

Donji 95,0%

Top 95,0%

Y-raskrsnica

Varijabla X 1

Jednačine regresije koje smo ranije pogledali su takođe izgrađene u MS Excel-u. Da biste ih izvršili, prvo se pravi dijagram raspršenosti, a zatim kroz kontekstni izbornik odaberite - Dodaj liniju trenda. U novom prozoru označite kvadratiće - Prikaži jednačinu na dijagramu i stavite vrijednost pouzdanosti aproksimacije (R ^ 2) na dijagram.

književnost:

  1. Teorija vjerojatnosti i matematička statistika. Gmurman V. E. Udžbenik za univerzitete. - Ed. 10. sr. - M.: Više. škola, 2010. - 479s.
  2. Viša matematika u vježbama i zadacima. Udžbenik za univerzitete / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. U 2 sata - Ed. 6. sr. - M.: Izdavačka kuća Oniks doo: Izdavačka kuća Mir i obrazovanje doo, 2007. - 416 str.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - neke informacije o regresijskoj analizi

Koncept regresije. Odnos između varijabli x i y mogu se opisati na različite načine. Konkretno, bilo koji oblik veze može se izraziti opštom jednačinom , gdje y tretira se kao zavisna varijabla, ili funkcije od drugog - nezavisna varijabla x, tzv argument. Korespondencija između argumenta i funkcije može se dati tablicom, formulom, grafom itd. Poziva se promjena funkcije ovisno o promjeni jednog ili više argumenata regresija. Sva sredstva koja se koriste za opisivanje korelacija su sadržaj regresiona analiza.

Za izražavanje regresije služe korelacione jednačine, odnosno regresijske jednačine, empirijski i teorijski izračunati regresijski nizovi, njihovi grafovi, koji se nazivaju regresijske linije, kao i koeficijenti linearne i nelinearne regresije.

Indikatori regresije izražavaju korelaciju dvosmjerno, uzimajući u obzir promjenu prosječnih vrijednosti atributa Y pri promeni vrednosti x i sign X, i obrnuto, pokazuju promjenu srednjih vrijednosti obilježja X po promenjenim vrednostima y i sign Y. Izuzetak su vremenske serije, ili serije dinamike, koje pokazuju promjenu znakova tokom vremena. Regresija takvih serija je jednostrana.

Postoji mnogo različitih oblika i vrsta korelacija. Zadatak se svodi na identifikaciju oblika veze u svakom konkretnom slučaju i izražavanje odgovarajućom korelacijskom jednadžbom, što nam omogućava da predvidimo moguće promjene u jednom predznaku. Y na osnovu poznatih promjena X, povezan sa prvom korelacijom.

12.1 Linearna regresija

Jednačina regresije. Rezultati opservacija izvršenih na određenom biološkom objektu prema koreliranim karakteristikama x i y, može biti predstavljen tačkama na ravni konstruisanjem sistema pravougaonih koordinata. Kao rezultat, dobiva se određeni dijagram raspršenosti, koji omogućava procjenu oblika i čvrstoće odnosa između različitih karakteristika. Vrlo često ovaj odnos izgleda kao prava linija ili se može aproksimirati pravom linijom.

Linearni odnos između varijabli x i y je opisan općom jednadžbom , gdje je a b c d,… su parametri jednadžbe koji određuju odnos između argumenata x 1 , x 2 , x 3 , …, x m i funkcije.

U praksi se ne uzimaju u obzir svi mogući argumenti, već samo neki argumenti, u najjednostavnijem slučaju samo jedan:

U jednadžbi linearne regresije (1) a je slobodan termin, a parametar b određuje nagib linije regresije u odnosu na pravougaone koordinatne ose. U analitičkoj geometriji, ovaj parametar se naziva faktor nagiba, au biometriji - koeficijent regresije. Vizuelni prikaz ovog parametra i položaja regresijskih linija Y on X i X on Y u sistemu pravougaonih koordinata daje sl.1.

Rice. 1 Y po X i X po Y regresijske linije u sistemu

pravougaone koordinate

Regresijske linije, kao što je prikazano na slici 1, sijeku se u tački O (,), što odgovara srednjim aritmetičkim vrijednostima znakova koji su međusobno povezani Y i X. Prilikom crtanja regresijskih grafova, vrijednosti nezavisne varijable X se crtaju duž apscise, a vrijednosti zavisne varijable, odnosno funkcije Y, crtaju se duž ordinate. Prava AB koja prolazi kroz tačku O (, ) odgovara potpunoj (funkcionalnoj) vezi između varijabli Y i X kada je koeficijent korelacije . Što je jača veza između Y i X, što su regresijske linije bliže AB, i obrnuto, što je slabiji odnos između ovih vrijednosti, to su linije regresije udaljenije od AB. Ako ne postoji veza između karakteristika, linije regresije su pod pravim uglom jedna prema drugoj i .

Budući da indikatori regresije izražavaju korelaciju dvosmjerno, regresionu jednačinu (1) treba napisati na sljedeći način:

Prema prvoj formuli, prosječne vrijednosti se određuju kada se predznak promijeni X po jedinici mjere, na drugom - prosječne vrijednosti kada se promijeni karakteristika po jedinici mjere Y.

Koeficijent regresije. Koeficijent regresije pokazuje kako je, u prosjeku, vrijednost jedne karakteristike y mijenja se kada je druga jedinica mjere u korelaciji sa Y sign X. Ovaj indikator je određen formulom

Ovdje vrijednosti s pomnožite sa veličinom intervala klasa λ ako su pronađeni varijacionim serijama ili korelacionim tabelama.

Koeficijent regresije se može izračunati zaobilazeći izračunavanje standardnih devijacija s y i s x prema formuli

Ako je koeficijent korelacije nepoznat, koeficijent regresije se određuje na sljedeći način:

Odnos regresije i koeficijenata korelacije. Upoređujući formule (11.1) (tema 11) i (12.5), vidimo da njihov brojilac sadrži istu vrijednost, što ukazuje na povezanost ovih indikatora. Ova veza se izražava jednakošću

Dakle, koeficijent korelacije jednak je geometrijskoj sredini koeficijenata b yx i b xy. Formula (6) dozvoljava, prvo, od poznatih vrijednosti koeficijenata regresije b yx i b xy odrediti koeficijent regresije R xy, i drugo, provjeriti ispravnost izračunavanja ovog pokazatelja korelacije R xy između različitih osobina X i Y.

Kao i koeficijent korelacije, koeficijent regresije karakteriše samo linearni odnos i prati ga znak plus za pozitivan odnos i znak minus za negativan odnos.

Određivanje parametara linearne regresije. Poznato je da je zbir kvadrata odstupanja varijante x i od prosjeka postoji najmanja vrijednost, tj. Ova teorema čini osnovu metode najmanjih kvadrata. S obzirom na linearnu regresiju [vidi formule (1)], zahtjev ove teoreme je zadovoljen određenim sistemom jednačina tzv. normalno:

Zajedničko rješenje ovih jednačina s obzirom na parametre a i b dovodi do sljedećih rezultata:

;

;

, odakle i.

S obzirom na dvosmjernu prirodu odnosa između varijabli Y i X, formula za određivanje parametra a treba izraziti ovako:

i . (7)

Parametar b, ili koeficijent regresije, određuje se prema sljedećim formulama:

Konstrukcija empirijskih regresijskih serija. U prisustvu velikog broja zapažanja, regresiona analiza počinje izgradnjom empirijskih regresijskih serija. Empirijski regresijski niz formira se izračunavanjem vrijednosti jednog varijabilnog atributa X prosječne vrijednosti drugog, u korelaciji sa X sign Y. Drugim riječima, konstrukcija empirijske regresijske serije svodi se na pronalaženje grupne sredine u iz odgovarajućih vrijednosti znakova Y i X.

Empirijski regresijski niz je dvostruki niz brojeva koji se može predstaviti tačkama na ravni, a zatim se povezivanjem ovih tačaka pravim segmentima može dobiti empirijska regresijska linija. Empirijski regresijski nizovi, posebno njihovi zapleti, tzv regresijske linije, daju vizuelni prikaz oblika i čvrstoće korelacione zavisnosti između različitih karakteristika.

Izjednačavanje empirijskih regresijskih serija. Grafovi empirijskih regresijskih nizova su, po pravilu, izlomljene, a ne glatke linije. To se objašnjava činjenicom da uz glavne razloge koji određuju opći obrazac u varijabilnosti koreliranih osobina, na njihovu vrijednost utječe i utjecaj brojnih sekundarnih uzroka koji uzrokuju slučajne fluktuacije u čvornim točkama regresije. Da biste identifikovali glavni trend (trend) konjugovane varijacije koreliranih karakteristika, morate da zamenite isprekidane linije glatkim regresijskim linijama koje se glatko kreću. Zove se proces zamjene isprekidanih linija glatkim usklađivanje empirijskih serija i regresijske linije.

Metoda grafičkog poravnanja. Ovo je najjednostavniji metod koji ne zahtijeva računski rad. Njegova suština je sljedeća. Empirijski regresijski niz je iscrtan kao graf u pravougaonom koordinatnom sistemu. Zatim se vizualno ocrtavaju sredine regresije, duž kojih se crta puna linija pomoću ravnala ili uzorka. Nedostatak ove metode je očigledan: ne isključuje utjecaj individualnih karakteristika istraživača na rezultate poravnanja empirijskih regresijskih linija. Stoga se u slučajevima kada je potrebna veća preciznost pri zamjeni izlomljenih regresijskih linija glatkim, koriste se druge metode poravnanja empirijskih serija.

Metoda pokretnog prosjeka. Suština ove metode svodi se na sekvencijalno izračunavanje aritmetičke sredine dva ili tri susjedna člana empirijskog niza. Ova metoda je posebno pogodna u onim slučajevima kada je empirijski niz predstavljen velikim brojem pojmova, tako da gubitak dva od njih - ekstremnih, koji je neizbježan kod ovog načina izjednačavanja, neće primjetno utjecati na njegovu strukturu.

Metoda najmanjeg kvadrata. Ovu metodu je početkom 19. vijeka predložio A.M. Legendre i, nezavisno od njega, K. Gauss. Omogućava vam da najpreciznije uskladite empirijski niz. Ova metoda, kao što je gore prikazano, zasniva se na pretpostavci da je zbir kvadrata odstupanja varijante x i od njihovog prosjeka postoji minimalna vrijednost, odnosno otuda naziv metode, koja se koristi ne samo u ekologiji, već iu tehnologiji. Metoda najmanjih kvadrata je objektivna i univerzalna, koristi se u raznim slučajevima pri pronalaženju empirijskih jednačina regresionih serija i određivanju njihovih parametara.

Zahtjev metode najmanjih kvadrata je da se teorijske točke regresijske linije moraju dobiti na takav način da se zbroj kvadrata odstupanja od ovih tačaka za empirijska promatranja y i bio minimalan, tj.

Računajući minimum ovog izraza u skladu sa principima matematičke analize i transformišući ga na određeni način, može se dobiti sistem tzv. normalne jednačine, u kojoj su nepoznate vrijednosti željeni parametri regresijske jednadžbe, a poznati koeficijenti su određeni empirijskim vrijednostima karakteristika, obično suma njihovih vrijednosti i njihovih unakrsnih proizvoda.

Višestruka linearna regresija. Odnos između nekoliko varijabli obično se izražava višestrukom regresijskom jednadžbom, što može biti linearno i nelinearne. U svom najjednostavnijem obliku, višestruka regresija se izražava jednadžbom s dvije nezavisne varijable ( x, z):

gdje a je slobodni član jednačine; b i c su parametri jednačine. Za pronalaženje parametara jednačine (10) (metodom najmanjih kvadrata) koristi se sljedeći sistem normalnih jednačina:

Redovi dinamike. Poravnanje redova. Promjena znakova tokom vremena formira tzv vremenske serije ili redovi dinamike. Karakteristična karakteristika takvih serija je da faktor vremena uvijek djeluje kao nezavisna varijabla X, a promjenjivi predznak je zavisna varijabla Y. Ovisno o regresijskoj seriji, odnos između varijabli X i Y je jednostran, jer vremenski faktor ne zavisi od varijabilnosti karakteristika. Uprkos ovim karakteristikama, vremenske serije se mogu uporediti sa regresijskim serijama i obraditi istim metodama.

Poput regresijskih serija, na empirijske vremenske serije utiču ne samo glavni, već i brojni sekundarni (slučajni) faktori koji prikrivaju glavni trend varijabilnosti karakteristika, koji se jezikom statistike naziva trend.

Analiza vremenskih serija počinje identifikacijom oblika trenda. Da biste to učinili, vremenska serija je prikazana kao linijski graf u pravokutnom koordinatnom sistemu. Istovremeno, vremenske tačke (godine, meseci i druge jedinice vremena) se crtaju duž ose apscise, a vrednosti zavisne varijable Y duž ordinatne ose. je jednadžba regresije u obliku odstupanja članova niza zavisne varijable Y od aritmetičke sredine niza nezavisne varijable X:

Ovdje je parametar linearne regresije.

Numeričke karakteristike serije dinamike. Glavne generalizirajuće numeričke karakteristike serije dinamike uključuju geometrijska sredina i aritmetička sredina blizu toga. Oni karakteriziraju prosječnu stopu kojom se vrijednost zavisne varijable mijenja u određenim vremenskim periodima:

Procjena varijabilnosti članova dinamičke serije je standardna devijacija. Prilikom odabira jednadžbi regresije za opisivanje vremenske serije uzima se u obzir oblik trenda, koji može biti linearan (ili svedeni na linearan) i nelinearan. Ispravnost izbora jednadžbe regresije obično se ocjenjuje po sličnosti empirijski promatranih i izračunatih vrijednosti zavisne varijable. Tačnija u rješavanju ovog problema je metoda regresione analize varijanse (tema 12 str.4).

Korelacija serija dinamike.Često je potrebno porediti dinamiku paralelnih vremenskih serija koje su međusobno povezane nekim opštim uslovima, na primer, da bi se utvrdila veza između poljoprivredne proizvodnje i rasta stoke u određenom vremenskom periodu. U takvim slučajevima, odnos između varijabli X i Y karakterizira koeficijent korelacije R xy (u prisustvu linearnog trenda).

Poznato je da je trend vremenskih serija, po pravilu, zamagljen fluktuacijama u terminima niza zavisne varijable Y. Otuda se javlja dvostruki problem: mjerenje odnosa između upoređenih serija, bez isključivanja trenda. , i mjerenje odnosa između susjednih članova iste serije, isključujući trend. U prvom slučaju pokazatelj je bliskosti veze između upoređenih serija dinamike koeficijent korelacije(ako je odnos linearan), u drugom - koeficijent autokorelacije. Ovi indikatori imaju različite vrijednosti, iako se izračunavaju korištenjem istih formula (vidi temu 11).

Lako je uočiti da na vrijednost koeficijenta autokorelacije utiče varijabilnost članova niza zavisne varijable: što manje članovi serije odstupaju od trenda, to je veći koeficijent autokorelacije i obrnuto.

U prisustvu korelacije između faktora i rezultantnih znakova, doktori često moraju odrediti za koliko se vrijednost jednog znaka može promijeniti kada se drugi promijeni mjernom jedinicom koju je općenito prihvatio ili ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčica ili dječaka) ako im se visina poveća za 1 cm. Za ove svrhe koristi se metoda regresijske analize.

Metoda regresijske analize najčešće se koristi za izradu normativnih skala i standarda fizičkog razvoja.

  1. Definicija regresije. Regresija je funkcija koja omogućava da se na osnovu prosječne vrijednosti jednog atributa odredi prosječna vrijednost drugog atributa koji je u korelaciji s prvim.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati broj prehlada u prosjeku na određenim vrijednostima prosječne mjesečne temperature zraka u jesensko-zimskom periodu.

  2. Definicija koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se vrijednost jednog atributa u prosjeku mijenja kada se drugi atribut povezan s njim promijeni prema utvrđenoj mjernoj jedinici.
  3. Formula regresijskog koeficijenta. R y / x \u003d r xy x (σ y / σ x)
    gdje je R y / x - koeficijent regresije;
    r xy - koeficijent korelacije između karakteristika x i y;
    (σ y i σ x) - standardne devijacije karakteristika x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature vazduha u jesensko-zimskom periodu;
    σ y = 8,65 (standardna devijacija broja infektivnih prehlada).
    Dakle, R y/x je koeficijent regresije.
    R y / x = -0,96 x (4,6 / 8,65) = 1,8, tj. sa smanjenjem prosječne mjesečne temperature zraka (x) za 1 stepen, prosječan broj zaraznih prehlada (y) u jesensko-zimskom periodu će se promijeniti za 1,8 slučajeva.

  4. Regresijska jednačina. y \u003d M y + R y / x (x - M x)
    gdje je y prosječna vrijednost atributa, koju treba odrediti kada se promijeni prosječna vrijednost drugog atributa (x);
    x - poznata prosječna vrijednost druge karakteristike;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti karakteristika x i y.

    Na primjer, prosječan broj zaraznih prehlada (y) može se odrediti bez posebnih mjerenja na bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako je x = - 9 °, R y / x = 1,8 bolesti, M x = -7 °, M y = 20 bolesti, onda y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova jednačina se primjenjuje u slučaju pravolinijskog odnosa između dvije karakteristike (x i y).

  5. Svrha jednadžbe regresije. Jednačina regresije se koristi za crtanje linije regresije. Ovo poslednje omogućava da se bez posebnih merenja odredi bilo koja prosečna vrednost (y) jednog atributa, ako se promeni vrednost (x) drugog atributa. Na osnovu ovih podataka pravi se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti prosječne mjesečne temperature unutar raspona između izračunatih vrijednosti broja prehlada.
  6. sigma regresije (formula).
    gdje je σ Ru/x - sigma (standardna devijacija) regresije;
    σ y je standardna devijacija karakteristike y;
    r xy - koeficijent korelacije između karakteristika x i y.

    Dakle, ako je σ y standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom periodu (x) iznosi -0,96, tada

  7. Svrha sigma regresije. Daje karakteristiku mjere raznolikosti rezultirajuće karakteristike (y).

    Na primjer, karakteriše raznolikost broja prehlada na određenoj vrijednosti srednje mjesečne temperature zraka u jesensko-zimskom periodu. Dakle, prosječan broj prehlada na temperaturi zraka x 1 = -6 ° može se kretati od 15,78 bolesti do 20,62 bolesti.
    Pri x 2 = -9° prosječan broj prehlada može biti u rasponu od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma se koristi u izgradnji skale regresije, koja odražava odstupanje vrijednosti efektivnog atributa od njegove prosječne vrijednosti ucrtane na regresijskoj liniji.

  8. Podaci potrebni za izračunavanje i crtanje skale regresije
    • koeficijent regresije - Ry/x;
    • jednadžba regresije - y \u003d M y + R y / x (x-M x);
    • sigma regresije - σ Rx/y
  9. Redoslijed proračuna i grafički prikaz skale regresije.
    • odrediti koeficijent regresije po formuli (vidi paragraf 3). Na primjer, treba odrediti koliko će se u prosjeku promijeniti tjelesna težina (u određenoj dobi ovisno o spolu) ako se prosječna visina promijeni za 1 cm.
    • prema formuli regresione jednadžbe (vidi paragraf 4), odrediti kolika će biti prosječna, na primjer, tjelesna težina (y, y 2, y 3 ...) * za određenu vrijednost rasta (x, x 2, x 3 ...) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrijednosti "x".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamjenjujući njihove vrijednosti u formulu (vidi paragraf 6).
    • na osnovu poznatih vrednosti x 1, x 2, x 3 i njihovih odgovarajućih prosečnih vrednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru / x) i najveće (y + σ ru / x) vrijednosti (y) konstruiraju skalu regresije.

      Za grafički prikaz skale regresije, vrijednosti x, x 2 , x 3 (y-osa) se prvo označavaju na grafikonu, tj. gradi se regresijska linija, na primjer, ovisnost tjelesne težine (y) o visini (x).

      Zatim se u odgovarajućim tačkama y 1 , y 2 , y 3 označavaju numeričke vrijednosti sigme regresije, tj. na grafikonu pronađite najmanju i najveću vrijednost y 1 , y 2 , y 3 .

  10. Praktična upotreba regresijske skale. Normativne skale i standardi se razvijaju, posebno za fizički razvoj. Prema standardnoj skali moguće je dati individualnu procjenu razvoja djece. Istovremeno, fizički razvoj se ocjenjuje kao harmoničan ako je, na primjer, na određenoj visini, djetetova tjelesna težina unutar jedne sigme regresije na prosječnu izračunatu jedinicu tjelesne težine - (y) za datu visinu (x) ( y ± 1 σ Ry / x).

    Fizički razvoj se smatra disharmoničnim u smislu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge sigme regresije: (y ± 2 σ Ry/x)

    Fizički razvoj će biti oštro disharmoničan kako zbog viška tako i zbog nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističkog istraživanja fizičkog razvoja petogodišnjih dječaka, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije su prikazane u tabeli.

Obavezno:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednačine odrediti kolika će biti očekivana tjelesna težina dječaka od 5 godina sa visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati sigmu regresije, izgraditi skalu regresije, grafički prikazati rezultate njenog rješenja;
  • izvući odgovarajuće zaključke.

Stanje problema i rezultati njegovog rješavanja prikazani su u zbirnoj tabeli.

Tabela 1

Uslovi problema Rezultati rješenja problema
jednadžba regresije sigma regresija regresijska skala (očekivana tjelesna težina (u kg))
M σ r xy R y/x X At σRx/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
visina (x) 109 cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Tjelesna težina (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Rješenje.

Zaključak. Dakle, skala regresije unutar izračunatih vrijednosti tjelesne težine omogućava vam da je odredite za bilo koju drugu vrijednost rasta ili procijenite individualni razvoj djeteta. Da biste to učinili, vratite okomicu na liniju regresije.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Javno zdravstvo i zdravstvena zaštita. Udžbenik za srednje škole. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medik V.A., Yuriev V.K. Kurs predavanja o javnom zdravlju i zdravstvenoj zaštiti: Dio 1. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Vodič u 2 toma). - Sankt Peterburg, 1998. -528 str.
  5. Kucherenko V.Z., Agarkov N.M. i dr. Socijalna higijena i organizacija zdravstvene zaštite (Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glantz. Mediko-biološka statistika. Per sa engleskog. - M., Praksa, 1998. - 459 str.

U statističkom modeliranju, regresiona analiza je studija koja se koristi za procjenu odnosa između varijabli. Ova matematička metoda uključuje mnoge druge metode za modeliranje i analizu više varijabli kada je fokus na odnosu između zavisne varijable i jedne ili više nezavisnih varijabli. Preciznije, regresiona analiza pomaže vam da shvatite kako se tipična vrijednost zavisne varijable mijenja ako se jedna od nezavisnih varijabli promijeni dok druge nezavisne varijable ostaju fiksne.

U svim slučajevima, ciljni rezultat je funkcija nezavisnih varijabli i naziva se funkcija regresije. U regresijskoj analizi, također je od interesa karakterizirati promjenu zavisne varijable kao funkciju regresije, koja se može opisati korištenjem distribucije vjerovatnoće.

Zadaci regresione analize

Ova metoda statističkog istraživanja ima široku primenu za predviđanje, pri čemu njena upotreba ima značajnu prednost, ali ponekad može dovesti do iluzije ili lažnih odnosa, pa se preporučuje da je pažljivo koristite u ovom pitanju, jer npr. korelacija ne znači uzročnost.

Razvijen je veliki broj metoda za izvođenje regresione analize, kao što su linearna i obična regresija najmanjih kvadrata, koje su parametarske. Njihova suština je da je funkcija regresije definirana u terminima konačnog broja nepoznatih parametara koji se procjenjuju iz podataka. Neparametrijska regresija omogućava da njena funkcija leži u određenom skupu funkcija, koje mogu biti beskonačno dimenzionalne.

Kao statistička metoda istraživanja, regresiona analiza u praksi zavisi od oblika procesa generisanja podataka i od toga kako se on odnosi na regresijski pristup. Pošto je pravi oblik generisanja procesa podataka obično nepoznat broj, analiza regresije podataka često zavisi u određenoj meri od pretpostavki o procesu. Ove pretpostavke se ponekad mogu provjeriti ako ima dovoljno podataka. Regresijski modeli su često korisni čak i kada su pretpostavke umjereno narušene, iako možda neće raditi najbolje.

U užem smislu, regresija se može odnositi posebno na procjenu varijabli kontinuiranog odgovora, za razliku od diskretnih varijabli odgovora koje se koriste u klasifikaciji. Slučaj kontinuirane izlazne varijable naziva se i metrička regresija kako bi se razlikovao od povezanih problema.

Priča

Najraniji oblik regresije je dobro poznata metoda najmanjih kvadrata. Objavili su ga Legendre 1805. i Gauss 1809. Legendre i Gauss su primijenili metodu na problem određivanja orbita tijela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih sporednih planeta) iz astronomskih posmatranja. Gauss je 1821. objavio dalji razvoj teorije najmanjih kvadrata, uključujući varijantu Gauss-Markovljeve teoreme.

Termin "regresija" skovao je Francis Galton u 19. vijeku da opiše biološki fenomen. Suština je bila da se rast potomaka od rasta predaka, po pravilu, povlači do normalnog prosjeka. Za Galtona je regresija imala samo ovo biološko značenje, ali su kasnije njegov rad preuzeli Udni Yoley i Karl Pearson i odveli ga u opštiji statistički kontekst. U radu Yulea i Pearsona, zajednička raspodjela varijabli odgovora i objašnjenja smatra se Gausovom. Ovu pretpostavku je Fischer odbacio u radovima iz 1922. i 1925. godine. Fisher je sugerirao da je uvjetna distribucija varijable odgovora Gaussova, ali zajednička distribucija ne mora biti. U tom pogledu, Fišerova sugestija je bliža Gaussovoj formulaciji iz 1821. Prije 1970. ponekad je trebalo i do 24 sata da se dobije rezultat regresione analize.

Metode regresijske analize i dalje su područje aktivnog istraživanja. Poslednjih decenija razvijene su nove metode za robusnu regresiju; regresije koje uključuju korelirane odgovore; metode regresije koje prihvataju različite vrste podataka koji nedostaju; neparametrijska regresija; Bayesove metode regresije; regresije u kojima se prediktorske varijable mjere sa greškom; regresije sa više prediktora nego zapažanja i uzročne zaključke sa regresijom.

Regresijski modeli

Modeli regresijske analize uključuju sljedeće varijable:

  • Nepoznati parametri, označeni kao beta, koji mogu biti skalar ili vektor.
  • Nezavisne varijable, X.
  • Zavisne varijable, Y.

U različitim oblastima nauke gde se primenjuje regresiona analiza, koriste se različiti termini umesto zavisnih i nezavisnih varijabli, ali u svim slučajevima regresioni model povezuje Y sa funkcijom X i β.

Aproksimacija se obično formuliše kao E (Y | X) = F (X, β). Da bi se izvršila regresijska analiza, mora se odrediti oblik funkcije f. Ređe se zasniva na znanju o odnosu između Y i X koje se ne oslanja na podatke. Ako takvo znanje nije dostupno, tada se bira fleksibilan ili pogodan oblik F.

Zavisna varijabla Y

Pretpostavimo sada da vektor nepoznatih parametara β ima dužinu k. Da bi izvršio regresijsku analizu, korisnik mora dati informacije o zavisnoj varijabli Y:

  • Ako se posmatra N tačaka podataka oblika (Y, X), gdje je N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ako se posmatra tačno N = K, a funkcija F je linearna, onda se jednačina Y = F(X, β) može rešiti tačno, a ne približno. Ovo se svodi na rješavanje skupa N-jednačina sa N-nepoznatima (elementima β) koji ima jedinstveno rješenje sve dok je X linearno nezavisan. Ako je F nelinearan, rješenje možda ne postoji ili može postojati mnogo rješenja.
  • Najčešća situacija je kada postoji N > tačaka na podatke. U ovom slučaju, postoji dovoljno informacija u podacima za procjenu jedinstvene vrijednosti za β koja najbolje odgovara podacima, a regresijski model kada se primjenjuje na podatke može se posmatrati kao nadjačani sistem u β.

U potonjem slučaju, regresiona analiza pruža alate za:

  • Pronalaženje rješenja za nepoznate parametre β, koje će, na primjer, minimizirati udaljenost između izmjerene i predviđene vrijednosti Y.
  • Pod određenim statističkim pretpostavkama, regresiona analiza koristi višak informacija za pružanje statističkih informacija o nepoznatim parametrima β i predviđenim vrijednostima zavisne varijable Y.

Potreban broj nezavisnih mjerenja

Razmotrimo regresijski model koji ima tri nepoznata parametra: β 0 , β 1 i β 2 . Pretpostavimo da eksperimentator izvrši 10 mjerenja u istoj vrijednosti nezavisne varijable vektora X. U ovom slučaju, regresiona analiza ne daje jedinstven skup vrijednosti. Najbolje što možete učiniti je procijeniti srednju vrijednost i standardnu ​​devijaciju zavisne varijable Y. Slično, mjerenjem dvije različite vrijednosti X, možete dobiti dovoljno podataka za regresiju s dvije nepoznate, ali ne i za tri ili više nepoznatih.

Ako su mjerenja eksperimentatora obavljena na tri različite vrijednosti nezavisne vektorske varijable X, tada bi regresiona analiza pružila jedinstveni skup procjena za tri nepoznata parametra u β.

U slučaju opšte linearne regresije, gornja izjava je ekvivalentna zahtjevu da je matrica X T X inverzibilna.

Statističke pretpostavke

Kada je broj mjerenja N veći od broja nepoznatih parametara k i grešaka mjerenja ε i , tada se, po pravilu, višak informacija sadržanih u mjerenjima distribuira i koristi za statistička predviđanja u vezi sa nepoznatim parametrima. Taj višak informacija naziva se stepen slobode regresije.

Osnovne pretpostavke

Klasične pretpostavke za regresijsku analizu uključuju:

  • Uzorkovanje je reprezentativno za predviđanje inferencije.
  • Greška je slučajna varijabla sa srednjom vrijednošću nula, koja je uvjetovana varijablama koje objašnjavaju.
  • Nezavisne varijable se mjere bez grešaka.
  • Kao nezavisne varijable (prediktori), one su linearno nezavisne, odnosno nije moguće izraziti nijedan prediktor kao linearnu kombinaciju ostalih.
  • Greške su nekorelirane, odnosno matrica kovarijanse greške dijagonala i svaki element koji nije nula je varijansa greške.
  • Varijanca greške je konstantna kroz posmatranja (homoskedastičnost). Ako ne, onda se mogu koristiti ponderisani najmanji kvadrati ili druge metode.

Ovi dovoljni uslovi za procjenu najmanjih kvadrata imaju tražena svojstva, a posebno ove pretpostavke znače da će procjene parametara biti objektivne, konzistentne i efikasne, posebno kada se uzmu u obzir u klasi linearnih procjena. Važno je napomenuti da stvarni podaci rijetko zadovoljavaju uslove. Odnosno, metoda se koristi čak i ako pretpostavke nisu tačne. Odstupanje od pretpostavki se ponekad može koristiti kao mjera koliko je model koristan. Mnoge od ovih pretpostavki mogu se ublažiti naprednijim metodama. Izvještaji o statističkoj analizi obično uključuju analizu testova u odnosu na podatke uzorka i metodologiju za korisnost modela.

Osim toga, varijable se u nekim slučajevima odnose na vrijednosti mjerene na tačkama. Mogu postojati prostorni trendovi i prostorne autokorelacije u varijablama koje krše statističke pretpostavke. Geografska ponderisana regresija je jedina metoda koja se bavi takvim podacima.

U linearnoj regresiji, karakteristika je da je zavisna varijabla, koja je Y i , linearna kombinacija parametara. Na primjer, u jednostavnoj linearnoj regresiji, modeliranje u n-tačkama koristi jednu nezavisnu varijablu, x i, i dva parametra, β 0 i β 1 .

U višestrukoj linearnoj regresiji postoji nekoliko nezavisnih varijabli ili njihovih funkcija.

Kada se nasumično uzorkuje iz populacije, njeni parametri omogućavaju da se dobije uzorak linearnog regresijskog modela.

U ovom aspektu, metoda najmanjih kvadrata je najpopularnija. On daje procjene parametara koje minimiziraju zbir kvadrata reziduala. Ova vrsta minimizacije (koja je tipična za linearnu regresiju) ove funkcije dovodi do skupa normalnih jednačina i skupa linearnih jednačina sa parametrima, koji se rješavaju da bi se dobile procjene parametara.

Uz pretpostavku dalje da se greška populacije generalno širi, istraživač može koristiti ove procjene standardnih grešaka da stvori intervale povjerenja i izvrši testiranje hipoteza o njenim parametrima.

Nelinearna regresijska analiza

Primjer u kojem funkcija nije linearna u odnosu na parametre ukazuje na to da zbir kvadrata treba minimizirati iterativnom procedurom. Ovo uvodi mnoge komplikacije koje definiraju razlike između linearnih i nelinearnih metoda najmanjih kvadrata. Shodno tome, rezultati regresione analize kada se koristi nelinearna metoda su ponekad nepredvidivi.

Proračun snage i veličine uzorka

Ovdje, po pravilu, ne postoje konzistentne metode u odnosu na broj opservacija u odnosu na broj nezavisnih varijabli u modelu. Prvo pravilo su predložili Dobra i Hardin i izgleda kao N = t^n, gdje je N veličina uzorka, n broj varijabli koje objašnjavaju, a t je broj opservacija potrebnih za postizanje željene tačnosti ako je model imao samo jedna varijabla koja objašnjava. Na primjer, istraživač gradi model linearne regresije koristeći skup podataka koji sadrži 1000 pacijenata (N). Ako istraživač odluči da je potrebno pet opservacija za precizno određivanje linije (m), tada je maksimalni broj varijabli koje model može podržati je 4.

Druge metode

Iako se parametri regresijskog modela obično procjenjuju metodom najmanjih kvadrata, postoje i druge metode koje se koriste mnogo rjeđe. Na primjer, ovo su sljedeće metode:

  • Bayesove metode (na primjer, Bayesova metoda linearne regresije).
  • Procentualna regresija koja se koristi za situacije u kojima se smanjenje procentualnih grešaka smatra prikladnijim.
  • Najmanja apsolutna odstupanja, koja su robusnija u prisustvu odstupanja koja dovode do kvantilne regresije.
  • Neparametrijska regresija koja zahtijeva veliki broj opservacija i proračuna.
  • Udaljenost metrike učenja koja se uči u potrazi za smislenom metrikom udaljenosti u datom ulaznom prostoru.

Softver

Svi glavni statistički softverski paketi se izvode pomoću regresione analize najmanjih kvadrata. Jednostavna linearna regresija i analiza višestruke regresije mogu se koristiti u nekim aplikacijama za proračunske tablice, kao iu nekim kalkulatorima. Iako mnogi statistički softverski paketi mogu izvesti različite vrste neparametarske i robusne regresije, ove metode su manje standardizirane; različiti softverski paketi implementiraju različite metode. Specijalizovani softver za regresiju je razvijen za upotrebu u oblastima kao što su analiza anketa i neuroimaging.