Biografije Karakteristike Analiza

Metode regresione analize. Regresiona analiza - statistička metoda za proučavanje zavisnosti slučajne varijable od varijabli

U prisustvu korelacije između faktora i rezultantnih znakova, doktori često moraju odrediti za koliko se vrijednost jednog znaka može promijeniti kada se drugi promijeni mjernom jedinicom koju je općenito prihvatio ili ustanovio sam istraživač.

Na primjer, kako će se promijeniti tjelesna težina učenika 1. razreda (djevojčica ili dječaka) ako im se visina poveća za 1 cm.U tu svrhu koristi se metoda regresione analize.

Metoda regresijske analize najčešće se koristi za izradu normativnih skala i standarda fizičkog razvoja.

  1. Definicija regresije. Regresija je funkcija koja omogućava da se na osnovu prosječne vrijednosti jednog atributa odredi prosječna vrijednost drugog atributa koji je u korelaciji s prvim.

    U tu svrhu koristi se koeficijent regresije i niz drugih parametara. Na primjer, možete izračunati broj prehlada u prosjeku na određenim vrijednostima prosječne mjesečne temperature zraka u jesensko-zimskom periodu.

  2. Definicija koeficijenta regresije. Koeficijent regresije je apsolutna vrijednost za koju se vrijednost jednog atributa u prosjeku mijenja kada se drugi atribut povezan s njim promijeni prema utvrđenoj mjernoj jedinici.
  3. Formula regresijskog koeficijenta. R y / x \u003d r xy x (σ y / σ x)
    gdje je R y / x - koeficijent regresije;
    r xy - koeficijent korelacije između karakteristika x i y;
    (σ y i σ x) - standardne devijacije karakteristika x i y.

    U našem primjeru;
    σ x = 4,6 (standardna devijacija temperature vazduha u jesensko-zimskom periodu;
    σ y = 8,65 (standardna devijacija broja infektivnih prehlada).
    Dakle, R y/x je koeficijent regresije.
    R y / x = -0,96 x (4,6 / 8,65) = 1,8, tj. sa smanjenjem prosječne mjesečne temperature zraka (x) za 1 stepen, prosječan broj zaraznih prehlada (y) u jesensko-zimskom periodu će se promijeniti za 1,8 slučajeva.

  4. Regresijska jednačina. y \u003d M y + R y / x (x - M x)
    gdje je y prosječna vrijednost atributa, koju treba odrediti kada se promijeni prosječna vrijednost drugog atributa (x);
    x - poznata prosječna vrijednost drugog svojstva;
    R y/x - koeficijent regresije;
    M x, M y - poznate prosječne vrijednosti karakteristika x i y.

    Na primjer, prosječan broj zaraznih prehlada (y) može se odrediti bez posebnih mjerenja na bilo kojoj prosječnoj vrijednosti srednje mjesečne temperature zraka (x). Dakle, ako je x = - 9 °, R y / x = 1,8 bolesti, M x = -7 °, M y = 20 bolesti, onda y = 20 + 1,8 x (9-7) = 20 + 3 ,6 = 23,6 bolesti.
    Ova jednačina se primjenjuje u slučaju pravolinijskog odnosa između dvije karakteristike (x i y).

  5. Svrha jednadžbe regresije. Jednačina regresije se koristi za crtanje linije regresije. Ovo poslednje omogućava da se bez posebnih merenja odredi bilo koja prosečna vrednost (y) jednog atributa, ako se promeni vrednost (x) drugog atributa. Na osnovu ovih podataka pravi se grafikon - regresijska linija, koji se može koristiti za određivanje prosječnog broja prehlada pri bilo kojoj vrijednosti prosječne mjesečne temperature unutar raspona između izračunatih vrijednosti broja prehlada.
  6. sigma regresije (formula).
    gdje je σ Ru/x - sigma (standardna devijacija) regresije;
    σ y je standardna devijacija karakteristike y;
    r xy - koeficijent korelacije između karakteristika x i y.

    Dakle, ako je σ y standardna devijacija broja prehlada = 8,65; r xy - koeficijent korelacije između broja prehlada (y) i prosječne mjesečne temperature zraka u jesensko-zimskom periodu (x) iznosi -0,96, tada

  7. Svrha sigma regresije. Daje karakteristiku mjere raznolikosti rezultirajuće karakteristike (y).

    Na primjer, karakteriše raznolikost broja prehlada na određenoj vrijednosti srednje mjesečne temperature zraka u jesensko-zimskom periodu. Dakle, prosječan broj prehlada na temperaturi zraka x 1 = -6 ° može se kretati od 15,78 bolesti do 20,62 bolesti.
    Kod x 2 = -9°, prosječan broj prehlada može biti u rasponu od 21,18 bolesti do 26,02 bolesti itd.

    Regresijska sigma se koristi u izgradnji skale regresije, koja odražava odstupanje vrijednosti efektivnog atributa od njegove prosječne vrijednosti ucrtane na regresijskoj liniji.

  8. Podaci potrebni za izračunavanje i crtanje skale regresije
    • koeficijent regresije - Ry/x;
    • jednadžba regresije - y \u003d M y + R y / x (x-M x);
    • sigma regresije - σ Rx/y
  9. Redoslijed proračuna i grafički prikaz skale regresije.
    • odrediti koeficijent regresije po formuli (vidi paragraf 3). Na primjer, treba odrediti koliko će se u prosjeku promijeniti tjelesna težina (u određenoj dobi ovisno o spolu) ako se prosječna visina promijeni za 1 cm.
    • prema formuli regresione jednadžbe (vidi paragraf 4), odrediti kolika će biti prosječna, na primjer, tjelesna težina (y, y 2, y 3 ...) * za određenu vrijednost rasta (x, x 2, x 3 ...) .
      ________________
      * Vrijednost "y" treba izračunati za najmanje tri poznate vrijednosti "x".

      Istovremeno, poznate su prosječne vrijednosti tjelesne težine i visine (M x i M y) za određenu dob i spol.

    • izračunajte sigmu regresije, znajući odgovarajuće vrijednosti σ y i r xy i zamjenjujući njihove vrijednosti u formulu (vidi paragraf 6).
    • na osnovu poznatih vrednosti x 1, x 2, x 3 i njihovih odgovarajućih prosečnih vrednosti y 1, y 2 y 3, kao i najmanjih (y - σ ru / x) i najveće (y + σ ru / x) vrijednosti (y) konstruiraju skalu regresije.

      Za grafički prikaz skale regresije, vrijednosti x, x 2 , x 3 (y-osa) se prvo označavaju na grafikonu, tj. gradi se regresijska linija, na primjer, ovisnost tjelesne težine (y) o visini (x).

      Zatim se u odgovarajućim tačkama y 1 , y 2 , y 3 označavaju numeričke vrijednosti sigme regresije, tj. na grafu pronađite najmanju i najveću vrijednost y 1 , y 2 , y 3 .

  10. Praktična upotreba regresijske skale. Razvijaju se normativne skale i standardi, posebno za fizički razvoj. Prema standardnoj skali moguće je dati individualnu procjenu razvoja djece. Istovremeno, fizički razvoj se ocjenjuje kao harmoničan ako je, na primjer, na određenoj visini, djetetova tjelesna težina unutar jedne sigme regresije na prosječnu izračunatu jedinicu tjelesne težine - (y) za datu visinu (x) ( y ± 1 σ Ry / x).

    Fizički razvoj se smatra disharmoničnim u smislu tjelesne težine ako je tjelesna težina djeteta za određenu visinu unutar druge sigme regresije: (y ± 2 σ Ry/x)

    Fizički razvoj će biti oštro disharmoničan kako zbog viška tako i zbog nedovoljne tjelesne težine ako je tjelesna težina za određenu visinu unutar treće sigme regresije (y ± 3 σ Ry/x).

Prema rezultatima statističkog istraživanja fizičkog razvoja petogodišnjih dječaka, poznato je da je njihova prosječna visina (x) 109 cm, a prosječna tjelesna težina (y) 19 kg. Koeficijent korelacije između visine i tjelesne težine je +0,9, standardne devijacije su prikazane u tabeli.

Obavezno:

  • izračunati koeficijent regresije;
  • pomoću regresijske jednačine odrediti kolika će biti očekivana tjelesna težina dječaka od 5 godina sa visinom jednakom x1 = 100 cm, x2 = 110 cm, x3 = 120 cm;
  • izračunati sigmu regresije, izgraditi skalu regresije, grafički prikazati rezultate njenog rješenja;
  • izvući odgovarajuće zaključke.

Stanje problema i rezultati njegovog rješavanja prikazani su u zbirnoj tabeli.

Tabela 1

Uslovi problema Rezultati rješenja problema
jednadžba regresije sigma regresija regresijska skala (očekivana tjelesna težina (u kg))
M σ r xy R y/x X At σRx/y y - σ Ru/h y + σ Ru/h
1 2 3 4 5 6 7 8 9 10
visina (x) 109 cm ± 4,4 cm +0,9 0,16 100cm 17,56 kg ± 0,35 kg 17,21 kg 17,91 kg
Tjelesna težina (y) 19 kg ± 0,8 kg 110 cm 19,16 kg 18,81 kg 19,51 kg
120 cm 20,76 kg 20,41 kg 21,11 kg

Rješenje.

Zaključak. Dakle, skala regresije unutar izračunatih vrijednosti tjelesne težine omogućava vam da je odredite za bilo koju drugu vrijednost rasta ili procijenite individualni razvoj djeteta. Da biste to učinili, vratite okomicu na liniju regresije.

  1. Vlasov V.V. Epidemiologija. - M.: GEOTAR-MED, 2004. - 464 str.
  2. Lisitsyn Yu.P. Javno zdravstvo i zdravstvena zaštita. Udžbenik za srednje škole. - M.: GEOTAR-MED, 2007. - 512 str.
  3. Medik V.A., Yuriev V.K. Kurs predavanja o javnom zdravlju i zdravstvenoj zaštiti: Dio 1. Javno zdravlje. - M.: Medicina, 2003. - 368 str.
  4. Minyaev V.A., Vishnyakov N.I. i dr. Socijalna medicina i organizacija zdravstvene zaštite (Vodič u 2 toma). - Sankt Peterburg, 1998. -528 str.
  5. Kučerenko V.Z., Agarkov N.M. i dr. Socijalna higijena i organizacija zdravstvene zaštite (Tutorial) - Moskva, 2000. - 432 str.
  6. S. Glantz. Mediko-biološka statistika. Per sa engleskog. - M., Praksa, 1998. - 459 str.

A) Grafička analiza jednostavne linearne regresije.

Jednostavna jednačina linearne regresije y=a+bx. Ako postoji korelacija između slučajnih varijabli Y i X, tada je vrijednost y = ý + ,

gdje je ý teorijska vrijednost y dobijena iz jednadžbe ý = f(x),

 je greška odstupanja teorijske jednačine ý od stvarnih (eksperimentalnih) podataka.

Jednačina za zavisnost prosječne vrijednosti ý od x, odnosno ý = f (x) naziva se regresijska jednačina. Regresiona analiza se sastoji od četiri koraka:

1) postavljanje zadatka i utvrđivanje razloga za povezivanje.

2) ograničenje predmeta istraživanja, prikupljanja statističkih informacija.

3) izbor jednačine veze na osnovu analize i prirode prikupljenih podataka.

4) proračun numeričkih vrednosti, karakteristike korelacije.

Ako su dvije varijable povezane na takav način da promjena jedne varijable odgovara sistematskoj promjeni druge varijable, tada se regresiona analiza koristi za procjenu i odabir jednačine odnosa između njih ako su ove varijable poznate. Za razliku od regresione analize, korelaciona analiza se koristi za analizu čvrstoće odnosa između X i Y.

Razmislite o pronalaženju prave linije u regresionoj analizi:

Teorijska jednačina regresije.

Termin "jednostavna regresija" označava da se veličina jedne varijable procjenjuje na osnovu poznavanja druge varijable. Za razliku od jednostavne multivarijantne regresije, koristi se za procjenu varijable na osnovu poznavanja dvije, tri ili više varijabli. Razmotrite grafičku analizu jednostavne linearne regresije.

Pretpostavimo da imamo rezultate skrining testova prije zapošljavanja i produktivnosti rada.

Rezultati selekcije (100 bodova), x

Učinak (20 bodova), g

Stavljajući tačke na graf, dobijamo dijagram raspršenja (polje). Koristimo ga za analizu rezultata selekcijskih testova i produktivnosti rada.

Analizirajmo liniju regresije koristeći dijagram raspršenja. U regresionoj analizi uvijek su specificirane najmanje dvije varijable. Sistematska promjena jedne varijable povezana je s promjenom druge. primarni cilj regresiona analiza je procijeniti vrijednost jedne varijable ako je poznata vrijednost druge varijable. Za kompletan zadatak važna je procjena produktivnosti rada.

Nezavisna varijabla u regresionoj analizi, veličina se koristi kao osnova za analizu druge varijable. U ovom slučaju, ovo su rezultati selekcijskih testova (duž X ose).

zavisna varijabla nazvana procenjena vrednost (duž Y-ose). U regresijskoj analizi može postojati samo jedna zavisna varijabla i više nezavisnih varijabli.

Za jednostavnu regresionu analizu, zavisnost se može predstaviti u dvokoordinatnom sistemu (x i y), duž x-ose - nezavisna varijabla, duž y-ose - zavisna. Tačke presjeka iscrtavamo na takav način da se na grafu prikaže par veličina. Graf se zove dijagram raspršivanja. Njegova konstrukcija je druga faza regresione analize, budući da je prva izbor analiziranih vrijednosti i prikupljanje podataka uzorka. Stoga se za statističku analizu primjenjuje regresiona analiza. Odnos između uzoraka podataka grafikona je linearan.

Za procjenu vrijednosti varijable y na osnovu varijable x, potrebno je odrediti poziciju linije koja najbolje predstavlja odnos između x i y na osnovu lokacije tačaka dijagrama raspršenja. U našem primjeru, ovo je analiza učinka. Linija povučena kroz tačke raspršenja - regresijska linija. Jedan od načina da se izgradi linija regresije na osnovu vizuelnog iskustva je metoda slobodnih ruku. Naša regresijska linija može se koristiti za određivanje produktivnosti rada. Prilikom pronalaženja jednačine regresijske linije

Često se koristi test najmanjih kvadrata. Najpogodnija je ona linija u kojoj je zbir kvadrata odstupanja minimalan.

Matematička jednačina linije rasta predstavlja zakon rasta u aritmetičkoj progresiji:

at = abX.

Y = a + bX– redukovana jednačina sa jednim parametrom je najjednostavniji oblik jednačine ograničenja. Prihvatljivo je za prosječne vrijednosti. Da bolje izrazim odnos između X i at, uvodi se dodatni faktor proporcionalnosti b, što ukazuje na nagib linije regresije.

B) Konstrukcija teorijske regresijske linije.

Proces njegovog pronalaženja sastoji se u odabiru i opravdavanju vrste krivulje i izračunavanju parametara a, b, With itd. Proces izgradnje naziva se izravnavanje, a zaliha krivina koju nudi otirač. analiza, raznovrsna. Najčešće se u ekonomskim problemima koristi porodica krivulja, jednačina koje se izražavaju polinomima cjelobrojnih pozitivnih stupnjeva.

1)
- jednačina prave linije,

2)
je jednadžba hiperbole,

3)
je jednadžba parabole,

gdje su ý ordinate teorijske linije regresije.

Nakon odabira vrste jednadžbe, potrebno je pronaći parametre od kojih ova jednačina ovisi. Na primjer, priroda položaja tačaka u polju raspršenja pokazala je da je teorijska linija regresije ravna.

Dijagram raspršenosti vam omogućava da predstavite produktivnost rada pomoću regresione analize. U ekonomiji, regresiona analiza predviđa mnoge karakteristike koje utiču na konačni proizvod (uzimajući u obzir cijene).

C) Kriterijum najmanjih okvira za pronalaženje prave linije.

Jedan od kriterijuma koji bismo mogli da primenimo za odgovarajuću liniju regresije u dijagramu raspršenosti zasniva se na odabiru linije za koju će zbir grešaka na kvadrat biti minimalan.

Blizina tačaka raspršenja pravoj liniji mjeri se ordinatama segmenata. Odstupanja ovih tačaka mogu biti pozitivna ili negativna, ali zbir kvadrata odstupanja teorijske linije od eksperimentalne je uvijek pozitivan i trebao bi biti minimalan. Činjenica da se sve tačke raspršenja ne poklapaju sa položajem linije regresije ukazuje na postojanje neslaganja između eksperimentalnih i teorijskih podataka. Dakle, može se reći da nijedna druga regresijska linija, osim pronađene, ne može dati manji zbir odstupanja između eksperimentalnih i eksperimentalnih podataka. Dakle, nakon pronalaska teorijske jednačine ý i liniju regresije, zadovoljavamo zahtjev najmanjih kvadrata.

Ovo se radi pomoću jednačine ograničenja
, koristeći formule za pronalaženje parametara a i b. Uzimajući teorijsku vrijednost
i označavajući lijevu stranu jednačine kroz f, dobijamo funkciju
od nepoznatih parametara a i b. Vrijednosti a i bće zadovoljiti minimum funkcije f i nalaze se iz parcijalnih diferencijalnih jednadžbi
i
. to neophodno stanje, međutim, za pozitivnu kvadratnu funkciju, ovo je također dovoljan uvjet za pronalaženje a i b.

Izvedemo iz jednadžbi parcijalnih izvoda formule za parametre a i b:



dobijamo sistem jednačina:

gdje
– aritmetičke srednje greške.

Zamjenom numeričkih vrijednosti, nalazimo parametre a i b.

Postoji koncept
. Ovo je faktor aproksimacije.

Ako a e < 33%, то модель приемлема для дальнейшего анализа;

Ako a e> 33%, onda uzimamo hiperbolu, parabolu itd. To daje pravo na analizu u različitim situacijama.

Zaključak: prema kriteriju koeficijenta aproksimacije, najpogodnija je ona linija za koju

, i nijedna druga regresijska linija za naš problem ne daje minimum odstupanja.

D) Kvadratna greška procjene, provjera njihove tipičnosti.

Za populaciju sa manje od 30 parametara istraživanja ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Učenički kriterijum. Ovo izračunava stvarnu vrijednost t-kriterijumi:

Odavde

gdje je rezidualna srednja kvadratna greška. Primljeno t a i t b u poređenju sa kritičnim t k iz Studentove tabele, uzimajući u obzir prihvaćeni nivo značajnosti ( = 0,01 = 99% ili  = 0,05 = 95%). P = f = k 1 = m je broj parametara jednačine koja se proučava (stepen slobode). Na primjer, ako y = a + bx; m = 2, k 2 = f 2 = str 2 = n – (m+ 1), gdje n- broj proučavanih karakteristika.

t a < t k < t b .

Zaključak: prema parametrima regresione jednadžbe provjerene na tipičnost, konstruiše se matematički model veze
. U ovom slučaju, parametri matematičke funkcije korištene u analizi (linearna, hiperbola, parabola) dobivaju odgovarajuće kvantitativne vrijednosti. Semantički sadržaj ovako dobijenih modela je da karakterišu prosečnu vrednost efektivnog obeležja
od faktorske osobine X.

E) Krivolinijska regresija.

Vrlo često postoji krivolinijski odnos, kada se između varijabli uspostavlja promjenjivi odnos. Intenzitet povećanja (pada) zavisi od nivoa nalaza X. Krivolinijska zavisnost može biti različitih tipova. Na primjer, razmotrite odnos između prinosa i padavina. Sa povećanjem padavina u jednakim prirodnim uslovima dolazi do intenzivnog povećanja prinosa, ali do određene granice. Nakon kritične tačke, padavine su suvišne, a prinos katastrofalno opada. Primjer pokazuje da je odnos prvo bio pozitivan, a potom negativan. Kritična tačka - optimalni nivo karakteristike X, koji odgovara maksimalnoj ili minimalnoj vrednosti karakteristike Y.

U ekonomiji se takav odnos uočava između cijene i potrošnje, produktivnosti i radnog staža.

parabolična zavisnost.

Ako podaci pokazuju da povećanje atributa faktora dovodi do povećanja rezultantnog atributa, tada se kao regresijska jednačina uzima jednačina drugog reda (parabola).

. Koeficijenti a,b,c se nalaze iz parcijalnih diferencijalnih jednadžbi:

Dobijamo sistem jednačina:

Vrste krivolinijskih jednadžbi:

,

,

Razumno je pretpostaviti da postoji krivolinijski odnos između produktivnosti rada i rezultata selekcijskog testa. To znači da će sa rastom sistema bodovanja performanse početi da opadaju na nekom nivou, tako da se direktni model može pokazati krivolinijskim.

Treći model će biti hiperbola, au svim jednačinama, umjesto varijable x, biće izraz.

U prethodnim napomenama, fokus je često bio na jednoj numeričkoj varijabli, kao što su prinosi od zajedničkih fondova, vrijeme učitavanja web stranice ili potrošnja bezalkoholnih pića. U ovoj i sljedećim napomenama razmotrit ćemo metode za predviđanje vrijednosti numeričke varijable ovisno o vrijednostima jedne ili više drugih numeričkih varijabli.

Materijal će biti ilustrovan nizom primjera. Predviđanje obima prodaje u prodavnici odjeće. Lanac diskontnih radnji Sunflowers kontinuirano se širi već 25 godina. Međutim, kompanija trenutno nema sistematski pristup odabiru novih prodajnih mjesta. Lokacija na kojoj kompanija namjerava otvoriti novu radnju određuje se na osnovu subjektivnih razmatranja. Kriteriji odabira su povoljni uvjeti najma ili menadžerska ideja o idealnoj lokaciji trgovine. Zamislite da ste šef Odjeljenja za posebne projekte i planiranje. Dobili ste zadatak da izradite strateški plan za otvaranje novih trgovina. Ovaj plan treba da sadrži prognozu godišnje prodaje u novootvorenim radnjama. Vjerujete da je prodajni prostor direktno povezan s prihodima i želite da tu činjenicu uključite u svoj proces donošenja odluka. Kako razviti statistički model koji predviđa godišnju prodaju na osnovu veličine nove prodavnice?

Obično se regresiona analiza koristi za predviđanje vrijednosti varijable. Njegov cilj je razviti statistički model koji predviđa vrijednosti zavisne varijable, odnosno odgovora, iz vrijednosti najmanje jedne nezavisne, ili eksplanatorne, varijable. U ovoj napomeni razmotrit ćemo jednostavnu linearnu regresiju - statističku metodu koja vam omogućava da predvidite vrijednosti zavisne varijable Y prema vrijednostima nezavisne varijable X. Sljedeće napomene će opisati model višestruke regresije dizajniran za predviđanje vrijednosti nezavisne varijable Y po vrijednostima nekoliko zavisnih varijabli ( X 1 , X 2 , …, X k).

Preuzmite bilješku u formatu ili, primjere u formatu

Vrste regresijskih modela

gdje ρ 1 je koeficijent autokorelacije; ako ρ 1 = 0 (bez autokorelacije), D≈ 2; ako ρ 1 ≈ 1 (pozitivna autokorelacija), D≈ 0; ako ρ 1 = -1 (negativna autokorelacija), D ≈ 4.

U praksi se primjena Durbin-Watsonovog kriterija zasniva na poređenju vrijednosti D sa kritičnim teorijskim vrijednostima d L i d U za dati broj zapažanja n, broj nezavisnih varijabli modela k(za jednostavnu linearnu regresiju k= 1) i nivo značajnosti α. Ako a D< d L , hipoteza o nezavisnosti slučajnih odstupanja se odbacuje (dakle, postoji pozitivna autokorelacija); ako D > d U, hipoteza se ne odbacuje (tj. nema autokorelacije); ako d L< D < d U nema dovoljno razloga za donošenje odluke. Kada je izračunata vrijednost D tada prelazi 2 d L i d U ne poredi se sam koeficijent D, i izraz (4 – D).

Da bismo izračunali Durbin-Watsonovu statistiku u Excelu, okrećemo se donjoj tabeli na Sl. četrnaest Povlačenje bilansa. Brojač u izrazu (10) se izračunava pomoću funkcije = SUMMQDIFF(niz1, niz2), a nazivnik = SUMMQ(niz) (slika 16).

Rice. 16. Formule za izračunavanje Durbin-Watson statistike

U našem primjeru D= 0,883. Glavno pitanje je: koju vrijednost Durbin-Watsonove statistike treba smatrati dovoljno malom da se zaključi da postoji pozitivna autokorelacija? Potrebno je povezati vrijednost D sa kritičnim vrijednostima ( d L i d U) u zavisnosti od broja zapažanja n i nivo značajnosti α (slika 17).

Rice. 17. Kritične vrijednosti Durbin-Watson statistike (fragment tabele)

Dakle, u problemu obima prodaje u trgovini koja isporučuje robu u vaš dom postoji jedna nezavisna varijabla ( k= 1), 15 zapažanja ( n= 15) i nivo značajnosti α = 0,05. shodno tome, d L= 1,08 i dU= 1,36. Zbog D = 0,883 < d L= 1,08, postoji pozitivna autokorelacija između reziduala, metoda najmanjih kvadrata se ne može primijeniti.

Testiranje hipoteza o nagibu i koeficijentu korelacije

Navedena regresija je primijenjena isključivo za predviđanje. Odrediti koeficijente regresije i predvidjeti vrijednost varijable Y za datu vrijednost varijable X korištena je metoda najmanjih kvadrata. Uz to, razmatrali smo standardnu ​​grešku procjene i koeficijent mješovite korelacije. Ako rezidualna analiza potvrdi da uvjeti primjenjivosti metode najmanjih kvadrata nisu narušeni, a model jednostavne linearne regresije je adekvatan, na osnovu podataka uzorka, može se tvrditi da postoji linearna veza između varijabli u populaciji.

Aplikacijat -kriterijumi za nagib. Provjerom da li je nagib populacije β 1 jednak nuli, može se utvrditi postoji li statistički značajna veza između varijabli X i Y. Ako se ova hipoteza odbaci, može se tvrditi da između varijabli X i Y postoji linearna veza. Nulte i alternativne hipoteze su formulisane na sledeći način: H 0: β 1 = 0 (nema linearne veze), H1: β 1 ≠ 0 (postoji linearna veza). Po definiciji t-statistika je jednaka razlici između nagiba uzorka i hipotetičkog nagiba populacije, podijeljena sa standardnom greškom procjene nagiba:

(11) t = (b 1 β 1 ) / Sb 1

gdje b 1 je nagib direktne regresije zasnovane na podacima uzorka, β1 je hipotetički nagib direktne opće populacije, , i statistiku testiranja t Ima t- distribucija sa n - 2 stepena slobode.

Provjerimo postoji li statistički značajan odnos između veličine trgovine i godišnje prodaje na α = 0,05. t-kriterijum se prikazuje zajedno sa ostalim parametrima kada se koristi Paket analiza(opcija Regresija). Potpuni rezultati Paketa analiza prikazani su na Sl. 4, fragment koji se odnosi na t-statistiku - na sl. osamnaest.

Rice. 18. Rezultati prijave t

Zbog broja prodavnica n= 14 (vidi sliku 3), kritična vrijednost t-statistika na nivou značajnosti α = 0,05 može se naći po formuli: t L=STUDENT.INV(0,025;12) = -2,1788 gdje je 0,025 polovina nivoa značajnosti, a 12 = n – 2; t U\u003d STUDENT.INV (0,975, 12) \u003d +2,1788.

Zbog t-statistika = 10,64 > t U= 2,1788 (slika 19), nulta hipoteza H 0 je odbijen. S druge strane, R-vrijednost za X\u003d 10,6411, izračunato po formuli \u003d 1-STUDENT.DIST (D3, 12, TRUE), približno je jednako nuli, tako da je hipoteza H 0 ponovo je odbijen. Činjenica da R-vrijednost je skoro nula, što znači da ako ne postoji pravi linearni odnos između veličine prodavnice i godišnje prodaje, bilo bi gotovo nemoguće pronaći je pomoću linearne regresije. Stoga postoji statistički značajna linearna veza između prosječne godišnje prodaje u prodavnici i veličine trgovine.

Rice. 19. Testiranje hipoteze o nagibu opšte populacije na nivou značajnosti od 0,05 i 12 stepeni slobode

AplikacijaF -kriterijumi za nagib. Alternativni pristup testiranju hipoteza o nagibu jednostavne linearne regresije je korištenje F-kriterijumi. Prisjetite se toga F-kriterijum se koristi za testiranje odnosa između dvije varijanse (vidi detalje). Prilikom testiranja hipoteze nagiba, mjera slučajnih grešaka je varijansa greške (zbir grešaka na kvadrat podijeljen sa brojem stupnjeva slobode), tako da F-test koristi omjer varijanse objašnjene regresijom (tj. vrijednosti SSR podijeljeno brojem nezavisnih varijabli k), na varijansu greške ( MSE=S YX 2 ).

Po definiciji F-statistika je jednaka srednjem kvadratu odstupanja zbog regresije (MSR) podijeljenom s varijansom greške (MSE): F = MSR/ MSE, gdje MSR=SSR / k, MSE =SSE/(n– k – 1), k je broj nezavisnih varijabli u regresijskom modelu. Statistika testa F Ima F- distribucija sa k i n– k – 1 stepena slobode.

Za dati nivo značajnosti α, pravilo odlučivanja je formulisano na sledeći način: ako F > FU, nulta hipoteza se odbacuje; u suprotnom se ne odbija. Rezultati, predstavljeni u obliku zbirne tabele analize varijanse, prikazani su na sl. dvadeset.

Rice. 20. Tabela analize varijanse za testiranje hipoteze o statističkoj značajnosti koeficijenta regresije

Slično t-kriterijum F-kriterijum se prikazuje u tabeli kada se koristi Paket analiza(opcija Regresija). Puni rezultati rada Paket analiza prikazano na sl. 4, fragment koji se odnosi na F-statistika - na sl. 21.

Rice. 21. Rezultati prijave F- Kriterijumi dobijeni korišćenjem Excel Analysis ToolPack-a

F-statistika je 113,23 i R-vrijednost blizu nule (ćelija ZnačajF). Ako je nivo značajnosti α 0,05, odredite kritičnu vrijednost F-iz formule se mogu dobiti distribucije sa jednim i 12 stepeni slobode F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Sl. 22). Zbog F = 113,23 > F U= 4,7472, i R-vrijednost blizu 0< 0,05, нулевая гипотеза H 0 odstupa, tj. Veličina prodavnice je usko povezana sa njenim godišnjim obimom prodaje.

Rice. 22. Testiranje hipoteze o nagibu opšte populacije na nivou značajnosti 0,05, sa jednim i 12 stepeni slobode

Interval pouzdanosti koji sadrži nagib β 1 . Da biste testirali hipotezu o postojanju linearne veze između varijabli, možete izgraditi interval pouzdanosti koji sadrži nagib β 1 i osigurati da hipotetička vrijednost β 1 = 0 pripada ovom intervalu. Centar intervala pouzdanosti koji sadrži nagib β 1 je nagib uzorka b 1 , a njegove granice su količine b 1 ±t n –2 Sb 1

Kao što je prikazano na sl. osamnaest, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d STUDENT.OBR (0,975, 12) \u003d 2,1788. shodno tome, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, ili + 1,328 ≤ β 1 ≤ +2,012. Dakle, nagib populacije sa vjerovatnoćom od 0,95 leži u rasponu od +1,328 do +2,012 (tj. od $1,328,000 do $2,012,000). Budući da su ove vrijednosti veće od nule, postoji statistički značajan linearni odnos između godišnje prodaje i površine trgovine. Kada bi interval povjerenja sadržavao nulu, ne bi postojao odnos između varijabli. Uz to, interval pouzdanosti znači da svakih 1.000 kvadratnih metara. stopa rezultira povećanjem prosječne prodaje od $1,328,000 na $2,012,000.

Upotrebat -kriterijumi za koeficijent korelacije. uveden je koeficijent korelacije r, što je mjera odnosa između dvije numeričke varijable. Može se koristiti za određivanje da li postoji statistički značajna veza između dvije varijable. Označimo koeficijent korelacije između populacija obje varijable simbolom ρ. Nulte i alternativne hipoteze su formulirane na sljedeći način: H 0: ρ = 0 (bez korelacije), H 1: ρ ≠ 0 (postoji korelacija). Provjera postojanja korelacije:

gdje r = + , ako b 1 > 0, r = – , ako b 1 < 0. Тестовая статистика t Ima t- distribucija sa n - 2 stepena slobode.

U problemu lanca prodavnica Suncokreti r2= 0,904, i b 1- +1,670 (vidi sliku 4). Zbog b 1> 0, koeficijent korelacije između godišnje prodaje i veličine prodavnice je r= +√0,904 = +0,951. Testirajmo nultu hipotezu da ne postoji korelacija između ovih varijabli koristeći t- statistika:

Na nivou značajnosti α = 0,05, nultu hipotezu treba odbaciti jer t= 10,64 > 2,1788. Stoga se može tvrditi da postoji statistički značajna veza između godišnje prodaje i veličine trgovine.

Kada se raspravlja o zaključcima o nagibu populacije, intervali povjerenja i kriteriji za testiranje hipoteza su zamjenjivi alati. Međutim, pokazalo se da je izračunavanje intervala povjerenja koji sadrži koeficijent korelacije teže, budući da je oblik distribucije uzorkovanja statistike r zavisi od pravog koeficijenta korelacije.

Procjena matematičkog očekivanja i predviđanje pojedinačnih vrijednosti

Ovaj odjeljak razmatra metode za procjenu očekivanog odgovora Y i predviđanja individualnih vrijednosti Y za date vrijednosti varijable X.

Izgradnja intervala povjerenja. U primjeru 2 (vidi gornji dio Metoda najmanjeg kvadrata) jednačina regresije je omogućila da se predvidi vrijednost varijable Y X. U problemu odabira lokacije za maloprodaju, prosječna godišnja prodaja u trgovini površine 4000 kvadratnih metara. stopa iznosio je 7,644 miliona dolara.Međutim, ova procjena matematičkog očekivanja opšte populacije je tačka. da bi se procijenila matematička očekivanja opće populacije, predložen je koncept intervala povjerenja. Slično, može se uvesti koncept interval pouzdanosti za matematičko očekivanje odgovora za datu vrijednost varijable X:

gdje , = b 0 + b 1 X i– varijabla predviđene vrijednosti Y at X = X i, S YX je srednja kvadratna greška, n je veličina uzorka, Xi- datu vrijednost varijable X, µ Y|X = Xi– matematičko očekivanje varijable Y at X = H i,SSX=

Analiza formule (13) pokazuje da širina intervala povjerenja ovisi o nekoliko faktora. Na datom nivou značajnosti, povećanje amplitude fluktuacija oko linije regresije, mjereno korištenjem srednje kvadratne greške, dovodi do povećanja širine intervala. S druge strane, očekivano, povećanje veličine uzorka je praćeno sužavanjem intervala. Osim toga, širina intervala se mijenja ovisno o vrijednostima Xi. Ako je vrijednost varijable Y predviđene za količine X, blizu prosječne vrijednosti , ispada da je interval pouzdanosti uži nego kod predviđanja odgovora za vrijednosti koje su daleko od srednje vrijednosti.

Recimo da pri odabiru lokacije za trgovinu želimo izgraditi interval povjerenja od 95% za prosječnu godišnju prodaju u svim trgovinama površine 4000 kvadratnih metara. stopala:

Dakle, prosječan godišnji obim prodaje u svim trgovinama površine 4000 kvadratnih metara. stopa, sa vjerovatnoćom od 95% leži u rasponu od 6,971 do 8,317 miliona dolara.

Izračunajte interval pouzdanosti za predviđenu vrijednost. Pored intervala pouzdanosti za matematičko očekivanje odgovora za datu vrijednost varijable X, često je potrebno znati interval pouzdanosti za predviđenu vrijednost. Iako je formula za izračunavanje takvog intervala povjerenja vrlo slična formuli (13), ovaj interval sadrži predviđenu vrijednost, a ne procjenu parametra. Interval za predviđeni odgovor YX = Xi za određenu vrijednost varijable Xi određuje se formulom:

Pretpostavimo da prilikom odabira lokacije za maloprodajni objekat želimo izgraditi interval pouzdanosti od 95% za predviđeni godišnji obim prodaje u prodavnici površine 4000 kvadratnih metara. stopala:

Dakle, predviđeni godišnji obim prodaje za 4.000 kvadratnih metara. stopa, sa vjerovatnoćom od 95% leži u rasponu od 5,433 do 9,854 miliona dolara Kao što vidite, interval povjerenja za predviđenu vrijednost odgovora je mnogo širi od intervala povjerenja za njegovo matematičko očekivanje. To je zato što je varijabilnost u predviđanju pojedinačnih vrijednosti mnogo veća nego u procjeni očekivane vrijednosti.

Zamke i etička pitanja povezana s korištenjem regresije

Poteškoće povezane s regresionom analizom:

  • Zanemarivanje uslova primenljivosti metode najmanjih kvadrata.
  • Pogrešna procjena uslova za primenljivost metode najmanjih kvadrata.
  • Pogrešan izbor alternativnih metoda uz kršenje uslova primjenjivosti metode najmanjih kvadrata.
  • Primjena regresione analize bez dubinskog poznavanja predmeta proučavanja.
  • Ekstrapolacija regresije izvan opsega eksplanatorne varijable.
  • Konfuzija između statističkih i uzročno-posledičnih veza.

Široka upotreba proračunskih tablica i statističkog softvera eliminirala je računske probleme koji su spriječili korištenje regresione analize. Međutim, to je dovelo do činjenice da su regresijsku analizu počeli koristiti korisnici koji nemaju dovoljno kvalifikacija i znanja. Kako korisnici znaju za alternativne metode ako mnogi od njih nemaju pojma o uvjetima primjenjivosti metode najmanjih kvadrata i ne znaju kako provjeriti njihovu primjenu?

Istraživača ne treba zanositi brušenjem brojeva – izračunavanjem pomaka, nagiba i mješovitog koeficijenta korelacije. Potrebno mu je dublje znanje. Ilustrujmo to klasičnim primjerom preuzetim iz udžbenika. Anscombe je pokazao da sva četiri skupa podataka prikazana na Sl. 23 imaju iste parametre regresije (slika 24).

Rice. 23. Četiri vještačka skupa podataka

Rice. 24. Regresiona analiza četiri vještačka skupa podataka; gotovo sa Paket analiza(kliknite na sliku da uvećate sliku)

Dakle, sa stanovišta regresione analize, svi ovi skupovi podataka su potpuno identični. Da se analiza na tome završi, izgubili bismo mnogo korisnih informacija. O tome svjedoče dijagrami raspršenosti (slika 25) i dijagrami rezidua (slika 26) koji su napravljeni za ove skupove podataka.

Rice. 25. Dijagrami raspršenosti za četiri skupa podataka

Dijagrami raspršenosti i dijagrami rezidua pokazuju da se ovi podaci razlikuju jedni od drugih. Jedini skup raspoređen duž prave linije je skup A. Dijagram reziduala izračunatih iz skupa A nema obrazac. Isto se ne može reći za skupove B, C i D. Dijagram raspršenosti za skup B pokazuje naglašen kvadratni obrazac. Ovaj zaključak potvrđuje dijagram reziduala, koji ima parabolički oblik. Dijagram raspršenosti i dijagram ostatka pokazuju da skup podataka B sadrži odstupnicu. U ovoj situaciji, potrebno je isključiti outlier iz skupa podataka i ponoviti analizu. Tehnika za otkrivanje i eliminisanje outliera iz opservacija naziva se analiza uticaja. Nakon eliminacije odstupanja, rezultat ponovne evaluacije modela može biti potpuno drugačiji. Dijagram raspršenosti nacrtan iz skupa podataka D ilustruje neobičnu situaciju u kojoj empirijski model jako ovisi o jednom odgovoru ( X 8 = 19, Y 8 = 12,5). Takve regresijske modele potrebno je posebno pažljivo izračunati. Dakle, dijagrami rasipanja i rezidua su suštinski alat za regresijsku analizu i trebali bi biti njen sastavni dio. Bez njih, regresiona analiza nije vjerodostojna.

Rice. 26. Pločice reziduala za četiri skupa podataka

Kako izbjeći zamke u regresionoj analizi:

  • Analiza mogućeg odnosa između varijabli X i Y uvijek počnite sa dijagramom raspršenosti.
  • Prije tumačenja rezultata regresione analize, provjerite uslove za njenu primjenjivost.
  • Nacrtajte ostatke u odnosu na nezavisnu varijablu. Ovo će omogućiti da se utvrdi kako empirijski model odgovara rezultatima posmatranja i da se otkrije kršenje konstantnosti varijanse.
  • Koristite histograme, dijagrame stabljike i listova, dijagrame okvira i dijagrame normalne distribucije da biste testirali pretpostavku normalne distribucije grešaka.
  • Ako uvjeti primjenjivosti metode najmanjih kvadrata nisu ispunjeni, koristite alternativne metode (na primjer, kvadratni ili višestruki regresijski modeli).
  • Ukoliko su ispunjeni uslovi primenljivosti metode najmanjih kvadrata, potrebno je testirati hipotezu o statističkoj značajnosti koeficijenata regresije i konstruisati intervale poverenja koji sadrže matematičko očekivanje i predviđenu vrednost odgovora.
  • Izbjegavajte predviđanje vrijednosti zavisne varijable izvan opsega nezavisne varijable.
  • Imajte na umu da statističke zavisnosti nisu uvijek uzročne. Zapamtite da korelacija između varijabli ne znači da postoji uzročna veza između njih.

Sažetak. Kao što je prikazano na blok dijagramu (slika 27), napomena opisuje jednostavan model linearne regresije, uslove njegove primenljivosti i načine testiranja ovih uslova. Razmatrano t-kriterijum za testiranje statističke značajnosti nagiba regresije. Za predviđanje vrijednosti zavisne varijable korišten je regresijski model. Razmatran je primjer koji se odnosi na izbor mjesta za maloprodajno mjesto, u kojem se proučava ovisnost godišnjeg obima prodaje od površine trgovine. Dobivene informacije vam omogućavaju da preciznije odaberete lokaciju za trgovinu i predvidite njenu godišnju prodaju. U napomenama koje slijede nastavit će se rasprava o regresionoj analizi, kao io višestrukim regresijskim modelima.

Rice. 27. Blok dijagram bilješke

Korišteni su materijali iz knjige Levin i dr. Statistika za menadžere. - M.: Williams, 2004. - str. 792–872

Ako je zavisna varijabla kategorička, treba primijeniti logističku regresiju.

Regresiona analiza je jedna od najpopularnijih metoda statističkog istraživanja. Može se koristiti za određivanje stepena uticaja nezavisnih varijabli na zavisnu varijablu. Funkcionalnost Microsoft Excel-a ima alate dizajnirane za obavljanje ove vrste analize. Pogledajmo šta su i kako ih koristiti.

Ali, da biste koristili funkciju koja vam omogućava provođenje regresijske analize, prije svega morate aktivirati paket analize. Tek tada će se alati potrebni za ovu proceduru pojaviti na Excel traci.


Sada kada idemo na tab "Podaci", na vrpci u kutiji s alatima "analiza" videćemo novo dugme - "Analiza podataka".

Vrste regresione analize

Postoji nekoliko vrsta regresije:

  • parabolični;
  • snaga;
  • logaritamski;
  • eksponencijalni;
  • demonstracija;
  • hiperbolično;
  • linearna regresija.

O implementaciji posljednje vrste regresione analize u Excel-u ćemo detaljnije govoriti kasnije.

Linearna regresija u Excelu

Ispod je, kao primjer, tabela koja prikazuje prosječnu dnevnu temperaturu zraka na ulici, te broj kupaca trgovine za odgovarajući radni dan. Hajde da uz pomoć regresione analize saznamo kako tačno vremenske prilike u vidu temperature vazduha mogu uticati na posećenost maloprodajnog objekta.

Opšta jednadžba linearne regresije izgleda ovako: Y = a0 + a1x1 + ... + axk. U ovoj formuli Y označava varijablu čiji uticaj pokušavamo da proučavamo. U našem slučaju to je broj kupaca. Značenje x su različiti faktori koji utiču na varijablu. Opcije a su koeficijenti regresije. Odnosno, određuju značaj određenog faktora. Indeks k označava ukupan broj ovih istih faktora.


Analiza rezultata analize

Rezultati regresione analize se prikazuju u obliku tabele na mestu navedenom u podešavanjima.

Jedan od glavnih indikatora je R-kvadrat. To ukazuje na kvalitet modela. U našem slučaju ovaj koeficijent iznosi 0,705 ili oko 70,5%. Ovo je prihvatljiv nivo kvaliteta. Veza manji od 0,5 je loša.

Još jedan važan indikator nalazi se u ćeliji na raskrsnici linije "Y-raskrsnica" i kolona "Koeficijenti". Ovdje je naznačeno koju će vrijednost imati Y, a u našem slučaju to je broj kupaca, sa svim ostalim faktorima jednakim nuli. U ovoj tabeli ova vrijednost je 58,04.

Vrijednost na presjeku grafa "Varijabla X1" i "Koeficijenti" prikazuje nivo zavisnosti Y od X. U našem slučaju, ovo je nivo zavisnosti broja kupaca prodavnice od temperature. Koeficijent od 1,31 smatra se prilično visokim pokazateljem uticaja.

Kao što vidite, prilično je lako napraviti tabelu regresijske analize koristeći Microsoft Excel. Ali, samo obučena osoba može raditi sa podacima dobijenim na izlazu i razumjeti njihovu suštinu.

Predavanje 3

Regresiona analiza.

1) Numeričke karakteristike regresije

2) Linearna regresija

3) Nelinearna regresija

4) Višestruka regresija

5) Korišćenje MS EXCEL-a za izvođenje regresione analize

Alat za kontrolu i evaluaciju - testni zadaci

1. Numeričke karakteristike regresije

Regresiona analiza je statistička metoda za proučavanje uticaja jedne ili više nezavisnih varijabli na zavisnu varijablu. Nezavisne varijable se inače nazivaju regresori ili prediktori, a zavisne varijable se nazivaju kriterijumi. Terminologija zavisnih i nezavisnih varijabli odražava samo matematičku zavisnost varijabli, a ne odnos uzroka i posljedice.

Ciljevi regresione analize

  • Određivanje stepena determinisanosti varijacije kriterijumske (zavisne) varijable pomoću prediktora (nezavisne varijable).
  • Predviđanje vrijednosti zavisne varijable koristeći nezavisnu(e) varijablu(e).
  • Određivanje doprinosa pojedinačnih nezavisnih varijabli varijaciji zavisne.

Regresionom analizom se ne može utvrditi da li postoji veza između varijabli, jer je postojanje takve veze preduslov za primenu analize.

Da biste izvršili regresijsku analizu, prvo se morate upoznati sa osnovnim konceptima statistike i teorije vjerovatnoće.

Osnovne numeričke karakteristike diskretnih i kontinuiranih slučajnih varijabli: matematičko očekivanje, varijansa i standardna devijacija.

Slučajne varijable se dijele u dvije vrste:

  • Diskretne, koje mogu uzeti samo određene, unaprijed određene vrijednosti (na primjer, vrijednosti brojeva na gornjoj strani bačene kocke ili redne vrijednosti tekućeg mjeseca);
  • · kontinuirane (najčešće - vrijednosti nekih fizičkih veličina: težine, udaljenosti, temperature itd.), koje, prema zakonima prirode, mogu poprimiti bilo koje vrijednosti, barem u određenom intervalu.

Zakon distribucije slučajne varijable je korespondencija između mogućih vrijednosti diskretne slučajne varijable i njenih vjerovatnoća, obično zapisanih u tabeli:

Statistička definicija vjerovatnoće se izražava u terminima relativne učestalosti slučajnog događaja, odnosno nalazi se kao omjer broja slučajnih varijabli i ukupnog broja slučajnih varijabli.

Matematičko očekivanje diskretne slučajne varijableX naziva se zbroj proizvoda vrijednosti količine X na vjerovatnoću ovih vrijednosti. Matematičko očekivanje se označava sa ili M(X) .

n

= M(X) = x 1 str 1 + x 2 str 2 +… + x n p n = S x i pi

i=1

Disperzija slučajne varijable u odnosu na njeno matematičko očekivanje određuje se pomoću numeričke karakteristike koja se naziva disperzija. Jednostavno rečeno, varijansa je širenje slučajne varijable oko srednje vrijednosti. Da biste razumjeli suštinu disperzije, razmotrite primjer. Prosječna plata u zemlji je oko 25 hiljada rubalja. Odakle dolazi ovaj broj? Najvjerovatnije se sve plate sabiraju i dijele sa brojem zaposlenih. U ovom slučaju postoji vrlo velika disperzija (minimalna plata je oko 4 hiljade rubalja, a maksimalna oko 100 hiljada rubalja). Kada bi svi imali istu platu, onda bi disperzija bila nula, a rasipanja ne bi bilo.

Disperzija diskretne slučajne varijableX naziva se matematičko očekivanje kvadrata razlike slučajne varijable i njenog matematičkog očekivanja:

D = M [ ((X - M (X)) 2 ]

Koristeći definiciju matematičkog očekivanja za izračunavanje varijanse, dobijamo formulu:

D \u003d S (x i - M (X)) 2 p i

Varijanca ima dimenziju kvadrata slučajne varijable. U slučajevima kada je potrebno imati numeričku karakteristiku disperzije mogućih vrijednosti u istoj dimenziji kao i sama slučajna varijabla, koristi se standardna devijacija.

Standardna devijacija slučajna varijabla naziva se kvadratni korijen njene varijanse.

Srednja kvadratna devijacija je mjera disperzije vrijednosti slučajne varijable oko njenog matematičkog očekivanja.

Primjer.

Zakon distribucije slučajne varijable X dat je sljedećom tablicom:

Pronađite njegovo matematičko očekivanje, varijansu i standardnu ​​devijaciju .

Koristimo gornje formule:

M (X) = 1 0,1 + 2 0,4 + 4 0,4 ​​+ 5 0,1 \u003d 3

D \u003d (1-3) 2 0,1 + (2 - 3) 2 0,4 + (4 - 3) 2 0,4 + (5 - 3) 2 0,1 = 1,6

Primjer.

U gotovinskoj lutriji igra se 1 dobitak od 1000 rubalja, 10 dobitaka od 100 rubalja i 100 dobitaka od po 1 rublje sa ukupnim brojem tiketa od 10 000. Napravite zakon o raspodjeli za slučajni dobitak X za vlasnika jedne loto listića i odrediti matematičko očekivanje, varijansu i standardnu ​​devijaciju slučajne varijable.

X 1 = 1000, X 2 = 100, X 3 = 1, X 4 \u003d 0,

P 1 = 1/10000 = 0,0001, P 2 = 10/10 000 = 0,001, P 3 = 100/10000 = 0,01, P 4 = 1 - (P 1 + P 2 + P 3) = 0,9889 .

Rezultate stavljamo u tabelu:

Matematičko očekivanje - zbir uparenih proizvoda vrijednosti slučajne varijable prema njihovoj vjerovatnoći. Za ovaj problem preporučljivo je izračunati ga po formuli

1000 0,0001 + 100 0,001 + 1 0,01 + 0 0,9889 = 0,21 rubalja.

Dobili smo pravu "fer" cijenu karte.

D \u003d S (x i - M (X)) 2 p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Funkcija distribucije kontinuiranih slučajnih varijabli

Vrijednost koja će kao rezultat testa uzeti jednu moguću vrijednost (ne zna se unaprijed koju), naziva se slučajna varijabla. Kao što je gore spomenuto, slučajne varijable su diskretne (diskontinuirane) i kontinuirane.

Diskretna varijabla je slučajna varijabla koja poprima odvojene moguće vrijednosti s određenim vjerovatnoćama koje se mogu numerisati.

Kontinuirana varijabla je slučajna varijabla koja može poprimiti sve vrijednosti iz nekog konačnog ili beskonačnog intervala.

Do sada smo se ograničili na samo jednu „raznovrsnost“ slučajnih varijabli – diskretne, tj. uzimajući konačne vrijednosti.

Ali teorija i praksa statistike zahtijevaju korištenje koncepta kontinuirane slučajne varijable - dopuštajući bilo koje numeričke vrijednosti iz bilo kojeg intervala.

Zakon distribucije kontinuirane slučajne varijable se prikladno specificira korištenjem takozvane funkcije gustoće vjerovatnoće. f(x). Vjerovatnoća P(a< X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

P (a< X < b) = ∫ f(x) dx

Grafikon funkcije f (x) naziva se kriva distribucije. Geometrijski, vjerovatnoća da slučajna varijable padne u interval (a; b) jednaka je površini odgovarajućeg krivolinijskog trapeza, ograničenog krivuljom raspodjele, osom Ox i pravim linijama x = a, x = b .

P(a£X

Ako se od složenog događaja oduzme konačni ili prebrojiv skup, vjerovatnoća novog događaja će ostati nepromijenjena.

Funkcija f(x) - numerička skalarna funkcija realnog argumenta x naziva se gustoća vjerovatnoće i postoji u tački x ako u ovoj tački postoji granica:

Svojstva gustoće vjerovatnoće:

  1. Gustoća vjerovatnoće je nenegativna funkcija, tj. f(x) ≥ 0

(ako su sve vrijednosti slučajne varijable X u intervalu (a; b), onda posljednja

jednakost se može zapisati kao ∫ f (x) dx = 1).

Razmotrimo sada funkciju F(x) = P(X< х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

kontinuirana slučajna varijabla X, tada je F (x) = ∫ f(x) dx = 1).

Iz posljednje jednakosti slijedi da je f (x) = F" (x)

Ponekad se funkcija f(x) naziva funkcija distribucije diferencijalne vjerovatnoće, a funkcija F(x) se naziva kumulativna funkcija raspodjele vjerovatnoće.

Napominjemo najvažnija svojstva funkcije raspodjele vjerovatnoće:

  1. F(x) je neopadajuća funkcija.
  2. F(-∞)=0.
  3. F (+∞) = 1.

Koncept funkcije distribucije je centralni za teoriju vjerovatnoće. Koristeći ovaj koncept, može se dati još jedna definicija kontinuirane slučajne varijable. Slučajna varijabla se naziva kontinuiranom ako je njena integralna funkcija distribucije F(x) kontinuirana.

Numeričke karakteristike kontinuiranih slučajnih varijabli

Matematičko očekivanje, varijansa i drugi parametri bilo koje slučajne varijable se gotovo uvijek izračunavaju korištenjem formula koje slijede iz zakona distribucije.

Za kontinuiranu slučajnu varijablu, matematičko očekivanje se izračunava po formuli:

M(X) = ∫ x f(x) dx

disperzija:

D(X) = ∫ ( x- M (X)) 2 f(x) dx ili D(X) = ∫ x 2 f(x) dx - (M (X)) 2

2. Linearna regresija

Neka su komponente X i Y dvodimenzionalne slučajne varijable (X, Y) zavisne. Pretpostavit ćemo da se jedan od njih može približno predstaviti kao linearna funkcija drugog, na primjer

Y ≈ g(X) = α + βX, i odrediti parametre α i β metodom najmanjih kvadrata.

Definicija. Poziva se funkcija g(X) = α + βX najbolja aproksimacija Y u smislu metode najmanjih kvadrata, ako matematičko očekivanje M(Y - g(X)) 2 ima najmanju moguću vrijednost; poziva se funkcija g(X). srednje kvadratna regresija Y do X.

Teorema Linearna srednja kvadratna regresija Y na X je:

gdje je koeficijent korelacije X i Y.

Koeficijenti jednačine.

Može se provjeriti da je za ove vrijednosti funkcija funkcije F(α, β)

F(α, β ) = M(Y - α - βX)² ima minimum, što dokazuje tvrdnju teoreme.

Definicija. Koeficijent se zove koeficijent regresije Y na X, a prava linija - - direktna srednja kvadratna regresija Y na X.

Zamjenom koordinata stacionarne tačke u jednakost, možemo pronaći minimalnu vrijednost funkcije F(α, β) jednaku Ova vrijednost se naziva rezidualna disperzija Y u odnosu na X i karakterizira količinu dozvoljene greške prilikom zamjene Y sa

g(X) = α + βX. Kod , preostala varijansa je 0, odnosno jednakost nije približna, već tačna. Dakle, kada su Y i X povezani linearnom funkcionalnom zavisnošću. Slično, možete dobiti ravnu liniju srednje kvadratne regresije X na Y:

i rezidualna varijansa X u odnosu na Y. Za obje direktne regresije se poklapaju. Upoređujući regresijske jednačine Y na X i X na Y i rješavajući sistem jednačina, možete pronaći točku presjeka regresionih linija - tačku sa koordinatama (t x, t y), tzv. centar zajedničke distribucije X i Y vrijednosti.

Razmotrićemo algoritam za sastavljanje regresionih jednačina iz udžbenika V. E. Gmurmana „Teorija verovatnoće i matematička statistika“ str.256.

1) Sastavite proračunsku tabelu u kojoj će biti zabeleženi brojevi uzoraka elemenata, opcije uzorka, njihovi kvadrati i proizvod.

2) Izračunajte zbir svih kolona osim broja.

3) Izračunajte prosječne vrijednosti za svaku količinu, disperziju i standardne devijacije.

5) Testirajte hipotezu o postojanju veze između X i Y.

6) Sastavite jednačine obe regresione linije i nacrtajte grafikone ovih jednačina.

Nagib pravolinijske regresije Y na X je koeficijent regresije uzorka

Koeficijent b=

Dobijamo željenu jednačinu regresije Y na X:

Y \u003d 0,202 X + 1,024

Slično, jednačina regresije X na Y:

Nagib pravolinijske regresije Y na X je koeficijent regresije uzorka pxy:

Koeficijent b=

X \u003d 4,119 Y - 3,714

3. Nelinearna regresija

Ako postoje nelinearni odnosi između ekonomskih pojava, onda se oni izražavaju pomoću odgovarajućih nelinearnih funkcija.

Postoje dvije klase nelinearnih regresija:

1. Regresije koje su nelinearne u odnosu na objašnjavajuće varijable uključene u analizu, ali linearne u odnosu na procijenjene parametre, na primjer:

Polinomi različitih stupnjeva

Jednakostrana hiperbola - ;

Semilogaritamska funkcija - .

2. Regresije koje su nelinearne u smislu procijenjenih parametara, na primjer:

Snaga - ;

Demonstrativna -;

Eksponencijalno - .

Nelinearne regresije na uključene varijable se jednostavnom promjenom varijabli svode na linearni oblik, a daljnja procjena parametara se vrši metodom najmanjih kvadrata. Razmotrimo neke funkcije.

Parabola drugog stepena redukuje se na linearni oblik zamjenom: . Kao rezultat, dolazimo do dvofaktorske jednačine, čija procjena parametara metodom najmanjih kvadrata dovodi do sistema jednadžbi:

Parabola drugog stepena se obično koristi u slučajevima kada se za određeni interval vrednosti faktora menja priroda odnosa karakteristika koje se razmatraju: direktni odnos se menja u inverzan ili inverzan u direktan.

Jednakostranična hiperbola se može koristiti za karakterizaciju odnosa između specifičnih troškova sirovina, materijala, goriva i obima proizvodnje, vremena cirkulacije robe i vrijednosti prometa. Njegov klasični primjer je Phillipsova kriva, koja karakterizira nelinearni odnos između stope nezaposlenosti x i procentualno povećanje plata y.

Hiperbola se svodi na linearnu jednadžbu jednostavnom zamjenom: . Takođe možete koristiti metodu najmanjih kvadrata za izgradnju sistema linearnih jednačina.

Na sličan način, zavisnosti se svode na linearni oblik: , i drugi.

Jednakostranična hiperbola i polulogaritamska kriva se koriste za opisivanje Engelove krive (matematički opis odnosa između udjela potrošnje na trajna dobra i ukupne potrošnje (ili prihoda)). Jednačine u koje su uključene koriste se u studijama produktivnosti, intenziteta rada poljoprivredne proizvodnje.

4. Višestruka regresija

Višestruka regresija - jednačina veze sa više nezavisnih varijabli:

gdje je zavisna varijabla (rezultantni znak);

Nezavisne varijable (faktori).

Za izgradnju jednadžbe višestruke regresije najčešće se koriste sljedeće funkcije:

linearni -

snaga -

izlagač -

hiperbola - .

Možete koristiti druge funkcije koje se mogu svesti na linearni oblik.

Za procjenu parametara jednačine višestruke regresije koristi se metoda najmanjih kvadrata (LSM). Za linearne jednadžbe i nelinearne jednadžbe koje se svode na linearne, konstruiran je sljedeći sistem normalnih jednadžbi čije rješenje omogućava da se dobiju procjene parametara regresije:

Da bi se to riješilo, može se primijeniti metoda determinanti:

gdje je determinanta sistema;

Privatne odrednice; koji se dobijaju zamenom odgovarajuće kolone matrice determinante sistema podacima sa leve strane sistema.

Druga vrsta jednačine višestruke regresije je jednačina regresije standardizovane skale, LSM je primenljiv na jednadžbu višestruke regresije na standardizovanoj skali.

5. UpotrebaGOSPOĐAEXCELda izvrši regresionu analizu

Regresionom analizom utvrđuje se oblik odnosa između slučajne varijable Y (zavisne) i vrijednosti jedne ili više varijabli (nezavisne), a vrijednosti potonje se smatraju tačno datim. Takvu zavisnost obično određuje neki matematički model (regresiona jednačina) koji sadrži nekoliko nepoznatih parametara. U toku regresione analize, na osnovu podataka uzorka, pronalaze se procjene ovih parametara, utvrđuju se statističke greške procjena ili granice intervala povjerenja i provjerava usklađenost (adekvatnost) prihvaćenog matematičkog modela sa eksperimentalnim podacima.

U analizi linearne regresije pretpostavlja se da je odnos između slučajnih varijabli linearan. U najjednostavnijem slučaju, u modelu uparene linearne regresije, postoje dvije varijable X i Y. I to je potrebno za n parova opservacija (X1, Y1), (X2, Y2), ..., (Xn, Yn) da se izgradi (odabere) prava linija, nazvana regresiona linija, koja "najbolje" aproksimira posmatrane vrednosti. Jednačina ove linije y=ax+b je jednadžba regresije. Koristeći jednadžbu regresije, možete predvidjeti očekivanu vrijednost zavisne varijable y koja odgovara datoj vrijednosti nezavisne varijable x. U slučaju kada se razmatra zavisnost između jedne zavisne varijable Y i više nezavisnih varijabli X1, X2, ..., Xm, govori se o višestrukoj linearnoj regresiji.

U ovom slučaju, jednačina regresije ima oblik

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

gdje su a0, a1, a2, …, am koeficijenti regresije koje treba odrediti.

Koeficijenti regresijske jednadžbe određuju se metodom najmanjih kvadrata, čime se postiže minimalni mogući zbroj kvadratnih razlika između stvarnih vrijednosti varijable Y i onih izračunatih pomoću regresijske jednadžbe. Tako se, na primjer, jednadžba linearne regresije može konstruirati čak i kada ne postoji linearna korelacija.

Mjera efikasnosti regresijskog modela je koeficijent determinacije R2 (R-kvadrat). Koeficijent determinacije može imati vrijednosti između 0 i 1 određuje s kojim stupnjem točnosti rezultirajuća regresijska jednadžba opisuje (aproksimira) originalne podatke. Značaj regresijskog modela se također istražuje korištenjem F-kriterija (Fisher), a pouzdanost razlike koeficijenata a0, a1, a2, ..., am od nule provjerava se Studentovim t-testom.

U Excelu su eksperimentalni podaci aproksimirani linearnom jednadžbom do 16. reda:

y = a0+a1x1+a2x2+…+a16x16

Za dobijanje koeficijenata linearne regresije može se koristiti procedura "Regresija" iz paketa analize. Također, funkcija LINEST pruža potpune informacije o jednačini linearne regresije. Osim toga, funkcije SLOPE i INTERCEPT se mogu koristiti za dobivanje parametara jednadžbe regresije, a funkcije TREND i FORECAST se mogu koristiti za dobivanje predviđenih Y vrijednosti u potrebnim točkama (za regresiju u paru).

Razmotrimo detaljno primjenu funkcije LINEST (poznato_y, [poznato_x], [konstanta], [statistika]): poznato_y - raspon poznatih vrijednosti zavisnog parametra Y. U parnoj regresijskoj analizi može imati bilo koji oblik; u množini, to mora biti ili red ili kolona; poznati_x je raspon poznatih vrijednosti jednog ili više nezavisnih parametara. Mora imati isti oblik kao Y raspon (za više parametara, više kolona ili redova, respektivno); konstanta - boolean argument. Ako je, na osnovu praktičnog značenja zadatka regresione analize, neophodno da linija regresije prolazi kroz ishodište, odnosno da je slobodni koeficijent jednak 0, vrijednost ovog argumenta treba postaviti na 0 (ili “ lažno”). Ako je vrijednost postavljena na 1 (ili "tačno") ili izostavljena, tada se slobodni koeficijent izračunava na uobičajen način; statistika je logički argument. Ako je vrijednost postavljena na 1 (ili "tačno"), onda se vraća dodatna statistika regresije (pogledajte tabelu) koja se koristi za procjenu učinkovitosti i značaja modela. U općem slučaju, za parnu regresiju y=ax+b, rezultat primjene funkcije LINEST izgleda ovako:

Table. Izlazni raspon LINEST za parnu regresijsku analizu

U slučaju višestruke regresione analize za jednačinu y=a0+a1x1+a2x2+…+amxm, koeficijenti am,…,a1,a0 su prikazani u prvom redu, a standardne greške za ove koeficijente su prikazane u drugom redu . Redovi 3-5, osim prve dvije kolone ispunjene statistikom regresije, dat će #N/A.

Funkciju LINEST treba unijeti kao formulu niza, prvo odabrati niz željene veličine za rezultat (m+1 stupac i 5 redova ako je potrebna statistika regresije) i dovršiti unos formule pritiskom na CTRL+SHIFT+ENTER.

Rezultat za naš primjer:

Osim toga, program ima ugrađenu funkciju - Analiza podataka na kartici Podaci.

Može se koristiti i za izvođenje regresione analize:

Na slajdu - rezultat regresione analize izvršene pomoću Data Analysis.

REZULTATI

Statistika regresije

Višestruki R

R-kvadrat

Normalizovani R-kvadrat

standardna greška

Zapažanja

Analiza varijanse

Značaj F

Regresija

Odds

standardna greška

t-statistika

P-vrijednost

donjih 95%

Top 95%

Donji 95,0%

Top 95,0%

Y-raskrsnica

Varijabla X 1

Jednačine regresije koje smo ranije pogledali su takođe izgrađene u MS Excel-u. Da biste ih izvršili, prvo se pravi dijagram raspršenosti, a zatim kroz kontekstni izbornik odaberite - Dodaj liniju trenda. U novom prozoru označite kućice - Prikaži jednačinu na dijagramu i stavite vrijednost pouzdanosti aproksimacije (R ^ 2) na dijagram.

književnost:

  1. Teorija vjerojatnosti i matematička statistika. Gmurman V. E. Udžbenik za univerzitete. - Ed. 10. sr. - M.: Više. škola, 2010. - 479s.
  2. Viša matematika u vježbama i zadacima. Udžbenik za univerzitete / Danko P. E., Popov A. G., Kozhevnikova T. Ya., Danko S. P. U 2 sata - Ed. 6. sr. - M.: Izdavačka kuća Oniks doo: Izdavačka kuća Mir i obrazovanje doo, 2007. - 416 str.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8 %D1%8F - neke informacije o regresijskoj analizi