Biografije Karakteristike Analiza

Varijacija se u statistici naziva. Varijacije i varijantne serije, raspon varijacija

Pojam varijacije i njegovo značenje

Varijacija ovo je razlika u vrijednostima bilo kojeg atributa u različitim jedinicama date populacije u istom periodu ili trenutku.

Na primjer, zaposleni u firmi se razlikuju po prihodima, vremenu provedenom na poslu, visini, težini i tako dalje.

Varijacija nastaje kao rezultat činjenice da se pojedinačne vrijednosti neke osobine formiraju pod kombiniranim utjecajem različitih faktora (uvjeta), koji se na različite načine kombiniraju u svakom poseban slučaj. Dakle, vrijednost svake opcije je objektivna.

Studija varijacije u statistici ima veliki značaj, jer pomaže da se shvati suština fenomena koji se proučava. Mjerenje varijacije, pronalaženje njenog uzroka, utvrđivanje uticaja pojedinačnih faktora daje važna informacija(na primjer, o očekivanom životnom vijeku ljudi, prihodima i rashodima stanovništva, finansijskoj situaciji preduzeća, itd.) za donošenje naučno utemeljenih upravljačkih odluka.

Prosječna vrijednost daje generalizirajuću karakteristiku osobine proučavane populacije, ali ne otkriva strukturu populacije koja je vrlo bitna za njeno saznanje. Prosjek ne pokazuje kako se varijante prosječnog obilježja nalaze u njegovoj blizini, da li su koncentrisane blizu prosjeka ili značajno odstupaju od njega. Stoga se za karakterizaciju fluktuacije znaka koriste indikatori varijacije.

Indikatori varijacije i njihov značaj u statistici

Za mjerenje varijacije osobine u populacijama koriste se sljedeći generalizirajući indikatori varijacije: raspon varijacije, srednja linearna devijacija, varijansa i srednja vrijednost standardna devijacija .

1. Najčešći apsolutni indikator je raspon varijacija(), definiran kao razlika između najveće () i najmanje () vrijednosti opcija.

. (5.1)

Ovaj pokazatelj je lako izračunati, što je dovelo do toga. široku upotrebu. Međutim, on bilježi samo ekstremna odstupanja i ne odražava odstupanja svih varijanti u seriji.

2. Za generalizirajuću karakteristiku distribucije odstupanja izračunavamo srednje linearno odstupanje , definisana kao aritmetička sredina odstupanja individualne vrednosti od srednje vrednosti, bez uzimanja u obzir predznaka ovih odstupanja:

Neponderisana srednja linearna devijacija:

, (5.2)

Ponderisana srednja linearna devijacija:

. (5.3)

U ovim formulama razlike u brojiocu se uzimaju po modulu, inače će brojilac uvijek biti nula. Stoga se prosječna linearna devijacija kao mjera varijacije neke karakteristike rijetko koristi u statističkoj praksi, samo u slučajevima kada je zbir pokazatelja bez uzimanja u obzir predznaka ekonomskom smislu. Uz nju se, na primjer, analizira sastav radnika, ritam proizvodnje, promet vanjske trgovine.

3. Indikator objektivnije odražava mjeru varijacije disperzija ( - srednji kvadrat odstupanja), definiran kao prosjek kvadrata odstupanja:

Neponderisano:

, (5.4)

Ponderisano:

. (5.5)

Disperzija je od velike važnosti u ekonomske analize. AT matematičke statistike važnu ulogu karakterizirati kvalitet statističkih procjena, njihova varijansa igra.

4. Kvadratni korijen varijanse "srednjih kvadrata odstupanja" je standardna devijacija:

Standardna devijacija je generalizirajuća karakteristika veličine varijacije karakteristike u agregatu. Pokazuje kako, u prosjeku, određene opcije odstupaju od njihove prosječne vrijednosti; je apsolutna mjera fluktuacija atributa i izražava se u istim jedinicama kao i varijante, stoga je ekonomski dobro interpretirana.

Kako manje vrijednosti disperzija i standardna devijacija, to je homogenija (kvantitativno) populacija i tipičnija će biti prosječna vrijednost.

U statističkoj praksi često postaje neophodno upoređivati ​​varijacije različitih karakteristika (na primjer, poređenje varijacija u dobi radnika i njihovim kvalifikacijama, dužini radnog staža i veličini). plate).

Da biste napravili ova poređenja, koristite sljedeće relativne performanse:

Koeficijent oscilacije- odražava relativnu fluktuaciju ekstremne vrednosti karakteristika oko srednje vrijednosti:

. (5.7)

Relativna linearna devijacija karakterizira udio prosječne vrijednosti apsolutnih odstupanja od prosječne vrijednosti:

. (5.8)

Koeficijent varijacije je najčešća mjera volatilnosti koja se koristi za procjenu tipičnosti srednje vrijednosti:

. (5.9)

Ako je , onda to ukazuje na veliku fluktuaciju osobine u proučavanoj populaciji.

5.3 Varijanca: svojstva i metode proračuna

Disperzija ima niz svojstava koja omogućavaju pojednostavljenje njenih proračuna.

1) Ako se od svih vrijednosti opcija oduzme neke konstantan broj, tada se srednja kvadratna odstupanja od ovoga neće promijeniti:

. (5.10)

2) Ako se sve vrijednosti opcije podijele s nekim konstantnim brojem, tada će se prosječni kvadrat odstupanja od ovoga smanjiti za faktor, a standardna devijacija za faktor.

. (5.11)

3) Ako izračunate srednji kvadrat odstupanja od bilo koje vrijednosti, koja se više ili manje razlikuje od aritmetičke sredine, tada će ona uvijek biti veća od srednjeg kvadrata odstupanja, izračunate iz aritmetičke sredine:

Naime, prosječni kvadrat odstupanja će biti veći za kvadrat razlike između prosječne i ove uslovno uzete vrijednosti, tj. na :

Odstupanje od srednje vrijednosti ima svojstvo minimalnosti, tj. uvijek je manja od varijansi izračunatih iz bilo koje druge veličine. U ovom slučaju, kada se izjednači sa nulom, formula postaje:

. (5.14)

Koristeći drugo svojstvo varijanse, dijeleći sve opcije sa vrijednošću intervala, dobijamo sljedeću formulu za izračunavanje varijanse u varijantnom nizu sa u jednakim intervalima prema metodi momenata:

, (5.15)

gdje je disperzija izračunata metodom momenata;

5.3. Indikatori varijacije

cilj statistička studija otkriva osnovna svojstva i obrasci proučavane statističke populacije. U procesu obrade konsolidovanih podataka statističko posmatranje grade distributivni vodovi. Postoje dvije vrste distribucijskih serija – atributivne i varijacione, ovisno o tome da li je atribut uzet kao osnova grupisanja kvalitativni ili kvantitativan.

varijacijski nazivaju distributivnim serijama izgrađenim na kvantitativnoj osnovi. Vrijednosti kvantitativne osobine za pojedinačne jedinice, agregati nisu konstantni, oni se manje ili više razlikuju jedan od drugog. Ova razlika u vrijednosti osobine naziva se varijacije. Odvojite se numeričke vrijednosti osobine koje se javljaju u proučavanoj populaciji nazivaju se opcije vrednosti. Prisustvo varijabilnosti u pojedinim jedinicama populacije posledica je uticaja velikog broja faktora na formiranje nivoa osobine. Proučavanje prirode i stepena varijacije znakova u pojedinim jedinicama stanovništva je kritično pitanje bilo koje statističke studije. Indikatori varijacije se koriste za opisivanje mjere varijabilnosti osobina.

Drugi važan zadatak statistička istraživanja imaju za cilj utvrđivanje uloge pojedinačnih faktora ili njihovih grupa u varijaciji određenih znakova populacije. Da bismo riješili ovaj problem u statistici, posebne metode studije varijacija koje se zasnivaju na korištenju bodovne kartice koja mjeri varijaciju. U praksi, istraživač se suočava sa dovoljno velika količina opcije za vrijednosti atributa, što ne daje ideju o raspodjeli jedinica prema vrijednosti atributa u agregatu. Da biste to učinili, sve varijante vrijednosti atributa su raspoređene u rastućem ili opadajućem redoslijedu. Ovaj proces se zove rangiranje u redovima. Rangirana serija odmah daje opšta ideja o vrijednostima koje karakteristika zauzima u agregatu.

Nedovoljnost prosječne vrijednosti za iscrpnu karakterizaciju populacije čini neophodnim da se prosječne vrijednosti dopune indikatorima koji omogućavaju procjenu tipičnosti ovih prosjeka mjerenjem fluktuacije (varijacije) osobine koja se proučava. Korištenje ovih indikatora varijacije omogućava da se napravi Statistička analiza potpunije i sadržajnije, a time i dublje razumijevanje suštine proučavanih društvenih pojava.

po najviše jednostavni znakovi varijacije su minimum i maksimum - je najmanji i najveća vrijednost osobina u zbiru. Naziva se broj ponavljanja pojedinačnih varijanti vrijednosti karakteristika stopa ponavljanja. Označimo učestalost ponavljanja vrijednosti karakteristike fi, zbir frekvencija jednak volumenu proučavane populacije će biti:

gdje k– broj varijanti vrijednosti atributa. Zgodno je zamijeniti frekvencije sa frekvencijama - w.i. Frekvencija- indikator relativne frekvencije - može se izraziti u dijelovima jedinice ili postotku i omogućava vam da uporedite niz varijacija sa drugačiji broj zapažanja. Formalno imamo:

Za mjerenje varijacije osobine koriste se različiti apsolutni i relativni indikatori. Apsolutni indikatori varijacije uključuju srednju linearnu devijaciju, opseg varijacije, varijansu, standardnu ​​devijaciju.

Varijacija raspona(R) je razlika između maksimalne i minimalne vrijednosti osobine u proučavanoj populaciji: R= Xmax – Xmin. Ovaj pokazatelj daje samo najopćenitiju ideju o fluktuaciji osobine koja se proučava, jer pokazuje razliku samo između ekstremnih vrijednosti opcija. Potpuno je nepovezan sa frekvencijama u varijacionom nizu, tj. sa prirodom distribucije, a njena zavisnost može da je učini nestabilnom, slučajni karakter samo od ekstremnih vrijednosti atributa. Opseg varijacije ne daje nikakve informacije o karakteristikama proučavanih populacija i ne dozvoljava nam da procenimo stepen tipičnosti dobijenih prosečnih vrednosti. Opseg ovog indikatora ograničen je na prilično homogene populacije, tačnije, karakterizira varijaciju osobine, indikator koji se temelji na uzimanju u obzir varijabilnosti svih vrijednosti osobine.

Da bi se okarakterizirala varijacija neke osobine, potrebno je generalizirati odstupanja svih vrijednosti od bilo koje vrijednosti tipične za populaciju koja se proučava. Takvi pokazatelji

varijacije, kao što su srednja linearna devijacija, varijansa i standardna devijacija, zasnivaju se na razmatranju odstupanja vrijednosti atributa pojedinih jedinica populacije od aritmetičke sredine.

Prosječna linearna devijacija je aritmetička sredina apsolutnih vrijednosti odstupanja pojedinačnih opcija od njihove aritmetičke sredine:


apsolutna vrijednost(modul) odstupanje varijante od aritmetičke sredine; f– frekvencija.

Prva formula se primjenjuje ako se svaka od opcija pojavljuje u zbiru samo jednom, a druga - u nizu s nejednakim frekvencijama.

Postoji još jedan način da se u prosjeku odstupanja opcija od aritmetičke sredine. Ova metoda, koja je vrlo česta u statistici, svodi se na izračunavanje kvadrata odstupanja opcija od srednje vrijednosti i njihovo prosječenje. U ovom slučaju dobijamo novi indikator varijacije - varijansu.

Disperzija(?2) - prosjek kvadrata odstupanja varijanti vrijednosti osobina od njihove prosječne vrijednosti:

Druga formula se koristi ako varijante imaju vlastite težine (ili učestalosti serije varijacija).

U ekonomskoj i statističkoj analizi uobičajeno je da se varijacija nekog atributa procjenjuje najčešće koristeći standardnu ​​devijaciju. Standardna devijacija(?) je kvadratni korijen varijanse:

Srednja linearna i srednja kvadratna devijacija pokazuju koliko se vrijednost atributa u prosjeku fluktuira za jedinice populacije koja se proučava, a izražavaju se u istim jedinicama kao i varijante.

U statističkoj praksi često postaje neophodno uporediti varijacije različitih karakteristika. Na primjer, veliko interesovanje predstavlja poređenje varijacija u godinama zaposlenih i njihovim kvalifikacijama, dužini radnog staža i platama, itd. ovakva poređenja indikatori apsolutne varijabilnosti znakova - prosječna linearna i standardna devijacija - nisu prikladni. Nemoguće je, zapravo, uporediti fluktuaciju radnog staža, izraženu u godinama, sa fluktuacijom plata, izraženom u rubljama i kopejkama.

Kada se poredi varijabilnost različitih osobina u agregatu, zgodno je koristiti relativne indikatore varijacije. Ovi pokazatelji se izračunavaju kao omjer apsolutnih pokazatelja prema aritmetičkoj sredini (ili medijani). Koristeći raspon varijacije, prosječnu linearnu devijaciju, standardnu ​​devijaciju kao apsolutni indikator varijacije, dobijaju se relativni pokazatelji fluktuacije:


- najčešće korišćeni indikator relativne volatilnosti, koji karakteriše homogenost stanovništva. Skup se smatra homogenim ako koeficijent varijacije ne prelazi 33% za raspodjele bliske normalnim.

Varijacija- ovo je promjena (fluktuacija) vrijednosti atributa unutar proučavane populacije tokom prijelaza s jednog objekta (grupe objekata) ili iz jednog slučaja u drugi. Apsolutni i relativni pokazatelji varijacije, koji karakteriziraju fluktuaciju vrijednosti promjenjivog atributa, omogućavaju, posebno, mjerenje stepena povezanosti i međuzavisnosti između znakova, određivanje stepena homogenosti populacije, tipičnosti. i stabilnost srednje vrednosti, odrediti veličinu greške uzorkovanja, statistički proceniti zakon raspodele populacije, itd.

U ovoj temi potrebno je razumjeti suštinu (značenje), svrhu i metode izračunavanja svakog indikatora varijacije koji se razmatra u okviru teorije statistike: opseg varijacije, prosječna linearna devijacija, prosječni kvadrat odstupanja ( varijansa), standardna devijacija, relativni koeficijenti varijacije (koeficijent oscilacije, koeficijent prosječne linearne devijacije, koeficijent varijacije).

Raspon varijacija (R) je razlika između maksimalne (x max) i minimalne (x min) vrijednosti osobine u agregatu (u seriji distribucije):

R = x max - x min. (5.1)

Mjera ostalih indikatora varijacije nije razlika između ekstremnih vrijednosti osobine, već prosječna razlika između svake vrijednosti osobine i prosjek ove znakove. Razlika između vrijednosti jedne karakteristike i prosjeka se naziva odstupanje.

Prosječna linearna devijacija izračunato prema sljedećim formulama:

prema pojedinačnim (negrupisanim) podacima

; (5.2)

prema serijama varijacija (grupisani podaci)

. (5.3)

Budući da je algebarski zbir odstupanja pojedinačnih vrijednosti obilježja od srednje vrijednosti (prema svojstvu nule) uvijek jednak nuli, pri izračunavanju prosječne linearne devijacije koristi se aritmetički zbir odstupanja uzetih po modulu, tj.
.

Prosječna linearna devijacija ima istu dimenziju kao i atribut za koji se izračunava.

Disperzija i standardna devijacija. Srednja linearna devijacija se relativno rijetko koristi za procjenu varijacije osobine. Stoga se obično izračunavaju disperzija ( 2) i standardna devijacija (). Ovi indikatori se koriste ne samo za procjenu varijacije osobine, već i za mjerenje odnosa između njih, za procjenu veličine greške uzorkovanja i za druge svrhe.

Varijanca karakteristika izračunato po formulama:

prema primarnim podacima

; (5.4)

po serijama varijacija

. (5.5)

Standardna devijacija je kvadratni korijen varijanse:

prema primarnim podacima

; (5.6)

po serijama varijacija

. (5.7)

Standardna devijacija, kao i prosječna linearna devijacija, ima istu dimenziju kao i sama originalna karakteristika.

Varijanca se također može definirati kao razlika između srednjeg kvadrata opcija i kvadrata njihove srednje vrijednosti, tj.
. (5.8)

U ovom slučaju, prema primarnim podacima, varijansa je:

(5.9)

S obzirom na grupisane podatke, izračunavanje varijanse ovom metodom u proširenom obliku može se predstaviti na sljedeći način:

. (5.10)

Za nizove raspodjele sa jednakim intervalima vrijednost varijanse se može izračunati metodom uslovnih momenata, tj.

, (5.11)

gdje
- prvi uslovni trenutak; (5.12)

- drugi uslovni momenat. (5.13)

Standardna devijacija prema metodi uslovnih momenata određuje se formulom:

(5.14)

Transformirajući izraz za izračunavanje varijanse prema metodi uslovnih momenata, dobijamo formulu oblika:
(5.15)

Na osnovu istih početnih podataka dobijamo istu vrijednost disperzije.

Pokazatelji relativne varijacije izračunavaju se kao omjer broja indikatora apsolutne varijacije i njihove aritmetičke sredine i izražavaju se u postocima:

koeficijent oscilacije -
; (5.16)

koeficijent relativne linearne devijacije -
; (5.17)

koeficijent varijacije -
. (5.18)

Zadatak 1. Razmotrite metode za izračunavanje indikatora varijacije na osnovu podataka u tabeli. 5.1.

Tabela 5.1. Početni podaci za izračunavanje indikatora varijacije

Trošak vremena za izradu dijelova min

Broj dijelova, kom. (f)

Srednja tačka intervala (x)

; k = 2

Zadati niz distribucije je rangiran, tako da je ovdje lako pronaći minimalnu vrijednost karakteristike, ona je jednaka 8 min. (10 - 2), a maksimum, jednak 18 min. (16 + 2). To znači da će raspon varijacije karakteristike u ovoj seriji biti 10 minuta, tj.

R \u003d x max - x min \u003d 18 - 8 = 10 min.

Izračunajmo prosječnu linearnu devijaciju. Prije svega, morate izračunati prosječnu vrijednost . Svi proračuni će se izvoditi u tabelarnom obliku (Tabela 5.1.), dodjeljujući kolonu u tabeli za svaku računsku operaciju.

Pošto su početni podaci predstavljeni nizom distribucija, onda

min.

min.

Hajde da pokažemo kako izračunati varijansu:

a) na uobičajen način (po definiciji):

;

b) kao razlika između srednjeg kvadrata i kvadrata srednje vrednosti:

Da biste odredili vrijednost disperzije pomoću ove formule, potrebno je izračunati srednji kvadrat opcija osobina koristeći formulu:

;

 2 = 178,6 - (13,2) 2 = 4,36;

c) prema metodi uslovnih momenata:

;

;

d) na osnovu transformacije formule za izračunavanje varijanse prema metodi uslovnih momenata imamo:

Disperzija je apstraktni broj koji nema mjerne jedinice.

Standardnu ​​devijaciju izračunavamo uzimajući kvadratni korijen varijanse:

min.

Prema metodi uslovnih momenata, vrijednost standardne devijacije se određuje na sljedeći način:

Izračunajmo relativne indikatore varijacije:

%;

%;

%.

Glavni relativni indikator varijacije je koeficijent varijacije (V). Koristi se za uporednu ocjenu mjere fluktuacije znakova izraženih u različitim mjernim jedinicama.

Uz variranje kvantitativnih osobina, može se uočiti i varijacija kvalitativnih osobina (posebno alternativna varijabilnost kvalitativnih osobina). U ovom slučaju svaka jedinica proučavane populacije ili ima neko svojstvo ili ga nema (npr. svaka odrasla osoba ili radi ili ne). Prisustvo obilježja u jedinicama populacije označava se sa 1, a odsustvo sa -0; udio jedinica stanovništva koje imaju ispitivanu karakteristiku označava se sa p, a one koje je nemaju - q. Varijanca alternativnog atributa određena je formulom:

; (5.19)

p + q = 1 (5.20)

Ako je, na primjer, udio onih koji su upisali fakultet 30%, a onih koji nisu upisali fakultet 70%, onda je varijansa 0,21(0,3 0,7). maksimalna vrijednost proizvoda pq je 0,25 (pod uslovom da jedna polovina jedinica ima ovu osobinu, a druga polovina nema: (0,5 0,5 = 0,25).

Metoda dekompozicije ukupne varijanse. Za procjenu utjecaja različitih faktora koji određuju fluktuaciju pojedinačnih vrijednosti osobine, koristit ćemo dekompoziciju ukupne varijanse na komponente: tzv. grupnu varijansu i prosjek unutargrupnih varijansi:

, (5.21)

gdje
totalna varijansa, koji karakteriše varijaciju osobine kao rezultat uticaja svih faktora koji određuju individualne razlike u jedinicama populacije.

Varijaciju atributa, zbog uticaja faktora koji leži u osnovi grupisanja, karakteriše međugrupna disperzija  2, koja je mjera fluktuacije privatnih prosjeka za grupe
oko ukupnog prosjeka i izračunava se po formuli:

, (5.22)

gdje je n j broj jedinica stanovništva u svakoj grupi;

j- serijski broj grupe.

Varijaciju predznaka, zbog uticaja svih ostalih faktora, osim grupisanja (faktorijalne), karakteriše u svakoj grupi unutargrupna varijansa:

, (5.23)

gdje je i serijski broj x i f unutar svake grupe.

Za populaciju u cjelini, prosjek unutargrupnih disperzija određen je formulom:

(5.24)

Odnos međugrupne disperzije  2 prema ukupnom
će dati koeficijent determinacije:

(5.25)

koji karakteriše proporciju varijacije rezultirajućeg atributa, zbog varijacije faktorskog atributa, koji je osnova grupisanja.

Pokazatelj dobijen kao kvadratni korijen koeficijenta determinacije naziva se empirijski koeficijent korelacije, tj.

(5.26)

Karakterizira čvrstoću odnosa između rezultantnih i faktorskih (koji je osnova grupisanja) karakteristika. Numerička vrijednost empirijskog koeficijenta korelacije ima dva predznaka: . Prilikom odlučivanja s kojim predznakom treba uzeti, mora se imati na umu: ako varijacija faktora i rezultantnih znakova ide sinhrono u istom smjeru (povećava se ili smanjuje), tada se korelacijski odnos uzima sa predznakom plus; ako promjena ovih znakova ide u suprotnim smjerovima, onda se uzima sa predznakom minus.

Za izračunavanje grupnih i između grupnih disperzija može se koristiti bilo koja od gore opisanih metoda za izračunavanje srednjih kvadrata odstupanja.

Zadatak 2. Izračunajmo sve imenovane disperzije prema početnim podacima tab. 5.2.

Tabela 5.2. Distribucija zasejane površine ozime pšenice prema prinosu

Broj lota

Produktivnost, c/ha

zasijane površine, ha

Izračunajte prosječan prinos ozime pšenice za sve parcele (ukupni prosjek):

c/ha.

Ukupnu varijansu nalazimo po formuli:

U gr. 6 tab. 5.2. izračunajte vrijednosti za izračunavanje srednjeg kvadrata opcija karakteristika:

.

Pronalaženje ukupne varijanse:

Prinos zavisi od mnogih faktora (kvaliteta zemljišta, količine organskih i mineralnih đubriva, kvaliteta semena, vremena setve, održavanja useva itd.). ovaj slučaj mjeri varijabilnost prinosa zbog svih faktora.

Zadatak 3. Podijelimo ukupno parcele u dvije grupe: Grupa I - zasijane površine na kojima nisu primijenjena organska đubriva; II - područja na kojima su uvedeni. Prva grupa će uključivati ​​sekcije 1-4, a druga - 4-8. Na osnovu podataka ovih grupa izračunavamo ostale disperzije koje su nam potrebne, koristeći one već proizvedene u tabeli. 5.2. kalkulacije.

Tabela 5.3. Procijenjeni podaci za izračunavanje međugrupnih i grupnih varijansi

Broj lota

Produktivnost, centner/ha (x)

Zasijana površina, ha (f)

Broj lota

Produktivnost, centner/ha (x)

Zasijana površina, ha (f)

definiramo:

za grupu I:

za grupu II:

a) prosek grupe

a) prosek grupe

q/ha;

q/ha;

b) srednji kvadrat opcija karakteristika

;

;

c) grupna varijansa

c) grupna varijansa

Određujemo prosjek grupnih varijansi:

.

Pronalaženje međugrupne varijanse:

Prosjek grupnih varijansi mjeri fluktuaciju osobine zbog svih ostalih faktora, osim grupisanja koje je osnova za grupisanje (diferencijacija u grupe), i međugrupnog - zbog ovog konkretnog faktora. Zbir ovih varijansi trebao bi dati ukupnu varijansu, odnosno:

Omjer međugrupne disperzije prema ukupnoj u našem primjeru dat će sljedeću vrijednost koeficijenta determinacije:

, ili 71,8%

odnosno varijacija u prinosu ozime pšenice za 71,8% zavisi od varijacije u veličini unošenja organskih đubriva. Preostalih 28,2% variranja prinosa zavisi od uticaja svih ostalih faktora, osim količine unesenog organskog đubriva.

Empirijski koeficijent korelacije će biti:

.

Ovo sugeriše da primena organskih đubriva ima veoma značajan uticaj na prinose.

Kako dokazati da obrazac dobijen proučavanjem eksperimentalnih podataka nije rezultat slučajnosti ili greške eksperimentatora, da je pouzdan? Istraživači početnici suočavaju se sa takvim pitanjem. Deskriptivna statistika pruža alate za rješavanje ovih problema. Ima dva velika odjeljka - opis podataka i njihovo poređenje u grupama ili u nizu međusobno.

Indikatori deskriptivne statistike

Postoji nekoliko indikatora koje koristi deskriptivna statistika.

Dakle, zamislite da smo suočeni sa zadatkom da opišemo visinu svih učenika u grupi od deset ljudi. Naoružani ravnalom i mjerenjem, dobijamo mali niz od deset brojeva (visina u centimetrima):

168, 171, 175, 177, 179, 187, 174, 176, 179, 169.

Ako pažljivo pogledate na ovoj linearnoj seriji možete pronaći nekoliko uzoraka:

  • Širina intervala na koji pada visina svih učenika je 18 cm.
  • U distribuciji, rast je najbliži sredini ovog intervala.
  • Postoje i izuzeci koji su najbliži gornjoj ili donjoj granici intervala.

Sasvim je očigledno da za ispunjenje zadatka opisivanja rasta učenika u grupi nije potrebno dati sve vrijednosti koje će se mjeriti. U tu svrhu dovoljno je dati samo dva, koja se u statistici nazivaju parametrima distribucije. Ovo je aritmetička sredina i standardna devijacija iz aritmetičke sredine. Ako se okrenemo rastu učenika, formula će izgledati ovako:

Aritmetička sredina visina učenika = (Zbir svih visina učenika) / (Broj učenika koji su učestvovali u mjerenju)

Ako sve svedemo na stroge matematičke pojmove, tada će definicija aritmetičke sredine (označena grčkim slovom - μ ("mu")) zvučati ovako:

Aritmetička sredina je omjer zbira svih vrijednosti jednog atributa za sve članove populacije (X) prema broju svih članova populacije (N).

Ako ovu formulu primijenimo na naša mjerenja, dobijamo da je μ za visinu učenika u grupi 175,5 cm.

Ako se pažljivo pogleda rast učenika, koji smo izmjerili u prethodnom primjeru, jasno je da rast svakog od različit od izračunatog prosjeka(175,5 cm). Da bismo upotpunili opis, potrebno je razumjeti koja je razlika između prosječne visine svakog učenika i prosječne vrijednosti.

U prvoj fazi izračunavamo parametar disperzije. Disperzija u statistici (označena kao σ 2 (sigma na kvadrat)) je omjer zbira kvadrata razlike između aritmetičke sredine (μ) i vrijednosti člana serije (X) i broja svih članova niza stanovništvo (N). U obliku formule, ovo se jasnije izračunava:

Vrijednosti koje dobijemo kao rezultat izračunavanja pomoću ove formule, predstavit ćemo kao kvadrat vrijednosti (u našem slučaju kvadratni centimetri). Okarakterizirati rast u centimetrima kvadratnim centimetrima, vidite, smiješno je. Stoga možemo ispraviti, tačnije, pojednostaviti ovaj izraz i dobiti prosjek standardna devijacija formula i izračun, primjer:

Tako smo dobili vrijednost standardne devijacije (ili srednje kvadratne devijacije) - Kvadratni korijen od disperzije. I sa mjernim jedinicama, sada je sve u redu, možemo izračunati standardnu ​​devijaciju za grupu:

Ispostavilo se da je naša grupa učenika izračunata po visini na ovaj način: 175,50 ± 5,25 cm.

Standardna devijacija dobro funkcionira sa serijama u kojima širenje vrijednosti nije jako veliko (to se jasno vidjelo na primjeru rasta, gdje je interval bio samo 18 cm). Kada bi naš raspon mjerenja bio veći, a varijacija u visini veća, tada bi standardna devijacija postala indikativna i trebao bi nam kriterij koji može odražavati širenje u relativnim jedinicama (tj. u postocima u odnosu na prosječnu vrijednost).

U ove svrhe daju se apsolutni i relativni indikatori varijacije u statistici, koji karakterišu skale varijacije:

  • Raspon varijacija.

Kvadratni koeficijent varijacije (označen kao Vσ) je omjer standardne devijacije i aritmetičke sredine, izražen kao postotak.

Za naš primjer sa studentima, određivanje Vσ nije teško - bit će jednako 3,18%. Glavni obrazac je da što se više mijenja vrijednost koeficijenta, to je veći raspon oko srednje vrijednosti i uzorak je manje homogen.

Prednost koeficijenta varijacije je u tome što pokazuje homogenost vrijednosti (iskrivljenost) u nizu naših mjerenja, osim toga, na njega ne utječu skala i mjerne jedinice. Ovi faktori čine koeficijent varijacije posebno popularnim u biomedicinskim istraživanjima. će se uzeti u obzir da eksces vrijednosti Vσ =33% odvaja homogene uzorke od heterogenih.

Ako pronađemo maksimalnu i minimalnu vrijednost u nizu vrijednosti rasta (prvi primjer), onda ćemo dobiti raspon varijacije (označen kao R, ponekad se naziva i volatilnost). U našem primjeru ova vrijednost će biti jednaka 18 cm Ova karakteristika se koristi za izračunavanje koeficijenta oscilacije:

Koeficijent oscilacije - pokazuje kako će se raspon varijacije odnositi na srednju vrijednost aritmetičke serije u procentima.

Izračuni u programu Microsoft Excel 2016

* - tabela prikazuje raspon A1:A10 na primjer, prilikom izračunavanja potrebno je navesti traženi raspon.

Pa hajde da sumiramo:

  1. Aritmetička sredina je vrijednost koja vam omogućava da pronađete prosječnu vrijednost indikatora u nizu podataka.
  2. Varijanca je prosječna vrijednost kvadrata odstupanja.
  3. Standardna devijacija ( standardna devijacija) je kvadratni korijen varijanse, kako bi se mjerne jedinice izjednačile sa aritmetičkom sredinom.
  4. Koeficijent varijacije - vrijednost odstupanja od srednje vrijednosti, izražena u relativne vrijednosti (%).

Posebno treba napomenuti da svi indikatori navedeni u članku, po pravilu, nemaju svoje značenje i koriste se za izradu složenije sheme analize podataka. Izuzetak od ovog pravila je koeficijent varijacije, koji je mjera homogenosti podataka.

Indikatori varijacije

Prosječna vrijednost ne dozvoljava suditi onim fluktuacijama (varijacijama) kojima je proučavana osobina izložena u ovoj populaciji. Srednje vrijednosti same po sebi nisu dovoljne za analizu. Potpuno različite u svom širenju oko srednje sredine stanovništva mogu imati istu aritmetičku sredinu. Za pronalaženje vrijednosti varijacije u statistici koriste se posebni indikatori, koji se nazivaju indikatori varijacije. Proučavanje varijacija u statistici je od velike važnosti, jer pomaže da se shvati suština fenomena koji se proučava.

Navodimo glavne indikatore varijacije i dajemo formule za njihov proračun.

Za karakterizaciju veličine varijacije u statistici koriste se apsolutni pokazatelji varijacije: opseg varijacije, srednja linearna devijacija, standardna devijacija, varijansa.

Raspon varijacije je razlika između maksimuma i minimalne vrijednosti osobina u proučavanoj populaciji, tj.

Raspon varijacije se lako pronalazi prema rangovima rangiranih serija distribucije.

Varijaciju je preciznije karakterizirana prosječnim linearnim odstupanjem, koje se nalazi kao aritmetička sredina odstupanja pojedinačnih vrijednosti od prosjeka bez uzimanja u obzir predznaka ovih odstupanja, tj.

Ako su originalni podaci grupisani, onda možemo pronaći ponderisanu prosječnu linearnu devijaciju, a i frekvencija (p) i relativna frekvencija (/) se mogu koristiti kao težina.

Objektivnije u praksi, mjera varijacije odražava disperziju (srednja kvadratna odstupanja). O tome se raspravljalo u Poglavlju 2. U ovom slučaju, mi pričamo o procjeni varijanse, jer vjerovatnoće nisu poznate.

Ako imamo negrupiranu seriju distribucije, tada je varijansa data sa

Imajte na umu da je procjena varijanse dobijena formulom (6.28) pristrasna. Koristeći ga, napravićemo neke sistematska greška na manju stranu. Nepristrasna procjena varijanse se nalazi po formuli

Po pravilu, formula (6.30) se koristi u slučajevima kada je populacija koja se proučava mala, ne više od 40 jedinica. U slučajevima kada n> 40 koristiti formulu (6.29).

Kada su originalni podaci grupisani, izračunajte ponderisane procjene varijanse

Izdvajanjem aritmetičkog kvadratnog korijena iz varijanse, dobijamo još jednu karakteristiku (o njoj je bilo riječi iu poglavlju 2) - standardnu ​​devijaciju, odnosno standard (tačnije, njegovu procjenu).

Ako je ispitana populacija dovoljno velika, onda se obično dijeli u grupe prema nekom kriteriju. Stoga je, uz proučavanje varijacije osobine u cijeloj populaciji u cjelini, moguće proučavati varijacije za svaku od njenih sastavnih grupa, kao i između samih grupa. Ako se populacija podijeli prema bilo kojem faktoru, onda se proučavanje varijacije postiže pronalaženjem i analizom tri vrste disperzija: opšta, međugrupna, unutargrupna.

Ukupna varijansa (D x) određuje varijaciju u cijeloj populaciji pod utjecajem svih faktora koji su uzrokovali ovu varijaciju. Ona je jednaka srednjem kvadratu devijacije individualne vrednosti sign X (x ar) a izračunava se po formulama (6.29), (6.31), (6.32).

Međugrupna varijansa F Hmg) karakteriše sistematsku varijaciju rezultujućeg poretka, što je posledica uticaja obeležja koje leži u osnovi grupisanja. Jednaka je srednjem kvadratu odstupanja grupnih srednjih vrijednosti x argr od ukupne aritmetičke sredine x ar, tj.

gdje, to- broj grupa;

c. - učestalost (broj jedinica) u grupi r;

/. - relativna učestalost grupe G.

Unutargrupna varijansa D Xez odražava nasumične varijacije (dio varijacije) zbog utjecaja neobračunatih faktora i neovisno o atributu koji leži u osnovi grupisanja. Jednaka je srednjem kvadratu odstupanja pojedinačnih vrijednosti osobine unutar grupe X. iz aritmetičke sredine ove grupe x argr i nalazi se po formulama:

ako grupa ne sadrži više od 40 zapažanja;

ako grupa sadrži više od 40 zapažanja (t- broj jedinica u određenoj grupi).

Primjenjuju se i formule za ponderisanu varijansu:

Nakon što smo pronašli unutargrupne varijanse za svaku grupu, možemo izračunati prosjek od varijanse unutar grupe prema formulama:

ili korištenjem relacije (6.13).

Prema pravilu za sabiranje varijansi, ukupna varijansa treba da bude jednaka zbiru međugrupnih i prosjeka unutargrupnih varijansi, tj.

Varijacija kvalitativne (alternativne) karakteristike (obilježja koju svaka jedinica populacije može, ali i ne mora imati) nalazi se pomoću disperzije:

gdje S- udio jedinica stanovništva koje imaju kvalitativni atribut;

v- udio jedinica stanovništva koje nemaju kvalitativni atribut.

primeti, to S + v = 1.

Standardna devijacija kvalitetna osobina nalazi se prema formuli

Na primjer, ako na 10.000 stanovnika okružnog centra ima 3.500 više obrazovanje, ali 6500 nema, onda

Varijanca kvalitativne osobine je jednaka

Maksimalna vrijednost varijanse kvalitativne osobine dobija se ako S = v= 0,5. To će biti jednako 0,25.

Da bi se okarakterisala mjera raspršenosti osobine koja se proučava, indikatori varijacije se nalaze u relativnim jedinicama. Predstavićemo neke od njih.

Koeficijent oscilacije odražava relativno širenje ekstremnih vrijednosti oko aritmetičke sredine

Relativno linearno odstupanje karakteriše udio prosječne vrijednosti apsolutnih odstupanja od aritmetičke sredine, tj.

Koeficijent varijacije, koji je relativna standardna devijacija, tj.

Po vrijednosti koeficijenta varijacije može se suditi o intenzitetu varijacije osobine, a samim tim i o homogenosti sastava proučavane populacije. Što je veća vrijednost koeficijenta varijacije, veće je širenje vrijednosti osobina oko aritmetičke sredine, i, shodno tome, veća je heterogenost populacije. Postoji skala za određivanje stepena homogenosti populacije u zavisnosti od vrednosti koeficijenta varijacije:

  • - ako je V x
  • - ako 30%
  • - ako je V x > 60%, tada se populacija smatra heterogenom.

Imajte na umu da je data skala prilično uslovna.

Glavne karakteristike oblika distribucije su iskrivljenost i kurtozis. O njima je bilo dovoljno detaljno razmotreno u Poglavlju 2. Ovdje razgovaraćemo o njihovim procjenama, pošto je broj mjerenja konačan, a vjerovatnoće nepoznate. Iskrivljenost (bevel) i kurtosis ćemo označiti istim slovima kao u poglavlju 2, ali ćemo dodati tildu (~) na vrh.

Za procjenu stepena asimetrije distribucije obično se koristi koeficijent momenta asimetrije koji se nalazi po formuli

gdje je Dz procjena trećeg centralni trenutak, koji se može odrediti formulama:

Stepen značajnosti koeficijenta asimetrije procjenjuje se pomoću srednje kvadratne greške koeficijenta asimetrije, koja zavisi od obima proučavane populacije (n) i nalazi se po sljedećoj formuli:

Ako je omjer , tada se asimetrija smatra značajnom, a ako , onda se asimetrija može smatrati beznačajnom, uzrokovana utjecajem slučajnih uzroka.

Glavni nedostatak momentnog koeficijenta asimetrije A x je to što njegova vrijednost ovisi o prisutnosti oštro istaknutih varijanti u agregatu. Za takve populacije ovaj koeficijent je od male koristi, jer se njegova velika (apsolutna) vrijednost objašnjava dominantnim doprinosom procjeni trećeg centralnog momenta atipičnih vrijednosti, a ne asimetrijom raspodjele glavnog dijela varijanta.

Koeficijenti strukturne asimetrije karakteriziraju asimetriju samo u središnjem dijelu distribucije, odnosno u najvećem dijelu varijante i, za razliku od koeficijenta trenutne asimetrije, ne ovise o ekstremnim vrijednostima osobine.

Po pravilu se koristi koeficijent strukturne asimetrije koji je predložio K. Pearson:

Još jedna karakteristika oblika distribucije je kurtosis. Njegova procjena u statistici se može dobiti po formuli

gdje je D 4 - procjena četvrtog centralnog momenta, koji se može naći po formulama

Da biste procenili značaj kurtozisa distribucije, pronađite prosek kvadratna greška kurtoza:

Ako je odstupanje onda odstupanje od normale

distribucija se smatra značajnom, inače se prepoznaje kao beznačajna i objašnjava se slučajnim razlozima.

Hajde sada da navedemo konkretan primjer proračuna, u kojem definiramo niz gore navedenih karakteristika, a također se dotaknemo pitanja koja nisu razmatrana u ovom poglavlju. U ovom slučaju, uz proračune, ukratko razmatramo neka neophodna teorijska pitanja.

Imajte na umu da je navedeni primjer čisto edukativan, podaci za njega su uzeti, kako kažu, „sa plafona“. Osim toga, serija posmatranja koja se razmatra sadrži samo 20 zapažanja radi lakšeg izračunavanja, jer mnogi studenti imaju poteškoća čak i pri izračunavanju prosječnih vrijednosti. Trenutno postoji veliki broj softverski paketi za određivanje statističke karakteristike, tako da više niko ne broji rukom. Mora se imati na umu da je kvaliteta početnih podataka od velike važnosti: ako su loše kvalitete, onda će rezultat biti isti, statistika i matematika u ovom slučaju neće pomoći.

Primjer 6.2

Pretpostavimo da smo primili statistički materijal o broju registrovanih saobraćajnih nezgoda u okružnom centru N. Predstavljen je u obliku tabele (tabela 6.3), podaci u njoj dati su za datume tekuće godine.

Tabela 6.3

Broj nesreća (x,)

Broj nesreća (x.)

U ovom slučaju, broj nezgoda je slučajna varijabla X, a rezultati zapažanja dati su u tabeli. 6.3 - skup vrijednosti koje uzima ova slučajna varijabla, tj. X = (Xj, x 2 ..., x 20). Podaci dati u tabeli. 6.3, potrebno je pojednostaviti, na primjer, lokaciju oživite ih u rastućem redoslijedu vrijednosti proučavane karakteristike x. (r = 1,20). Ako se ista vrijednost ponovi nekoliko puta, ponovite je. Kao rezultat, dobijamo statističke serije distribucije (vidi tabelu 6.4).

Na osnovu rangiranih serija (vidi tabelu 6.4), možete konstruisati, na primjer, statističku funkciju distribucije F (x), koju smo razmatrali u poglavlju 2.

F(x) je diskontinuirana funkcija koraka, kontinuirana s lijeve strane i ima n skokova, (n je broj opservacija), a vrijednost svakog skoka je 1 /P. Pošto se neka opažanja poklapaju, skokovi se spajaju i njihov broj će biti jednak broju posmatranih vrijednosti slučajna varijabla X. U našem slučaju F(x) imaće 15 skokova, iz čega proizilazi da ga nije racionalno graditi prema rangiranoj seriji, već se mora raditi po grupisanoj seriji, o čemu će biti reči nešto kasnije.

Tabela 6.4

Prema rangiranoj seriji (tabela 6.4) moguće je odrediti procjene numeričkih karakteristika posmatrane slučajne varijable X (broj nezgoda), na primjer, aritmetičku sredinu, varijansu, standardnu ​​devijaciju, opseg varijacije itd. .

Izračunajmo, na primjer, raspon varijacije i aritmetičku sredinu:

Sve numeričke karakteristike odredit ćemo do cijelih brojeva, pošto nema desetih i stotih dionica nesreće. Ostale numeričke karakteristike možete izračunati prema tabeli. 6.4, ali to ćemo uraditi po grupisanim redovima.

Na osnovu statističke serije distribucije konstruišemo grupisanu seriju, o čemu je bilo reči u poglavlju 4. Imajte na umu da dužine intervala u njemu ne moraju biti iste, ali svaki od njih mora sadržati zapažanja, tj. biti prazni intervali. U slučaju da vrijednost slučajne varijable X padne na granicu između cifara, podijelit ćemo je jednako između susjednih cifara, odnosno dodati 1/2 vrijednosti svake od njih.

Približno pronađite optimalan broj grupa (cifara) sa jednakim intervalima koristeći Sturgessovu formulu:

gdje to- broj cifara;

P- broj zapažanja.

Ali datu formulu je primjenjiv ako se distribucija slučajne varijable X koja se proučava približava normalnoj, ali mi to ne znamo. Stoga nećemo koristiti Sturgessovu formulu (u našem slučaju ona daje sljedeći rezultat to"5.3" 5).

Dobivene grupisane serije prikazane su u tabeli. 6.5. Pored pražnjenja, frekvencija, relativnih frekvencija, sadrži gustine frekvencija i teorijske vjerovatnoće koje će biti potrebne u budućnosti.

Tabela 6.5

primeti, to

gdje f*- relativna gustina frekvencije, tj. odnos relativne frekvencije i dužine intervala (u po

U našem slučaju to je isto za sve cifre).

Imajući grupiranu seriju (vidi tabelu 6.5), možemo približno konstruirati statističku funkciju distribucije F (x). Kao vrijednosti X za koje se određuje F (x), uzimamo granice pražnjenja. Statistička funkcija distribucije za naš primjer prikazana je na sl. 6.1.


Sada, koristeći grupisane serije (vidi tabelu 6.5), konstruišemo histogram, crtajući pražnjenja duž ose apscise, i odgovarajuće relativne gustine frekvencije duž ordinatne ose fv Kao rezultat, dobijamo skup pravokutnika, čija je površina jednaka odgovarajućoj relativnoj frekvenciji (slika 6.2.).

Imajte na umu da se histogram može izgraditi korištenjem frekvencija ..

Sada, koristeći grupisane statističke serije, dobijamo željene numeričke karakteristike proučavane slučajne varijable X (broj nezgoda), odnosno aritmetičku sredinu i neke indikatore varijacije. Koristićemo relativnu frekvenciju / (frekvenciju) kao težinu (možete koristiti, kao što smo već rekli, relativnu frekvenciju (a.) kao težinu).

Izračunajte aritmetičku srednju težinu:

As X. uzeti sredinu odgovarajućeg intervala. primeti, to x ar ispalo je isto kao u rangiranoj seriji.

Pronalaženje varijanse:

Određujemo standardnu ​​devijaciju:

Standardna devijacija je zaokružena na desetine.

Pronalazimo prosječnu linearnu devijaciju:

Izračunavamo koeficijent varijacije: tj. naš totalitet se može smatrati homogenim.

Odredite koeficijent oscilacije:

Koristeći formule (6.21) i (6.23), izračunavamo mod i medijan. Prilikom izračunavanja ovih karakteristika koristimo frekvenciju..

Nalazimo trenutni koeficijent asimetrije:

Da bismo to učinili, prvo odredimo procjenu trećeg centralnog momenta:

dakle, Sjekira~ -0,031, tj. imamo vrlo malu negativnu asimetriju.

Stepen značajnosti asimetrije može se procijeniti korištenjem srednje kvadratne greške koeficijenta asimetrije prema formuli

As , tada je asimetrija neznatna i uzrokovana je uticajem slučajnih faktora.

Sada izračunavamo eksces po formuli Za to

Prvo, nalazimo procjenu za četvrti centralni moment:

Dakle, eksces je jednak. e. naša distribucija

blago pritisnut na osu apscise.

Da bismo utvrdili da li je eksces distribucije značajan, izračunavamo njenu srednju kvadratnu grešku koristeći formulu (6.55). Get

Od stava manje od 3, tada je odstupanje od

Imajte na umu da je standardna devijacija u veličini uvijek veća od prosječne linearne devijacije. U našem slučaju

Omjer ovisi o prisutnosti oštrih odstupanja u agregatu i može biti pokazatelj njegove „kontaminacije“ atipičnim jedinicama koje se izdvajaju iz mase. Za normalnu distribuciju, omjer

Za naš primjer imamo

Zamjenjujući numeričke karakteristike slučajne varijable njihovim procjenama, pravimo grešku. Poželjno je procijeniti ovu grešku i pronaći vjerovatnoću (pouzdanost) da ona ne prelazi neki mali pozitivni s (tačnost).

U našem primjeru smo zamijenili M[X] na os ar, a D[X] na D x . Procijenimo tačnost i pouzdanost ovih procjena na osnovu rezultata našeg primjera.

Da bi se procijenila tačnost i pouzdanost procjene, mora se poznavati njen zakon raspodjele. U mnogim slučajevima, ovaj zakon se ispostavi da je približan normalnom. Od prosjeka statistički značaj slučajna varijabla X je zbir dovoljno velikog broja nezavisnih slučajnih varijabli, tada prema središnjoj granična teorema distribucije su blizu normalnih sa matematičkim očekivanjima

i disperzije, a time i sa standardom

U cilju određivanja parametara normalne distribucije za koju se nalazi procjena x ar, zamjenjujemo u formulama (6.57) - (6.59) prave parametre M[X], D i a(x) prema njihovim procjenama x ap , D x , d x i dobijamo

Pod pretpostavkom da je slučajna varijabla x ar ima normalnu distribuciju sa parametrima M[x ar] i D, naći približno vjerovatnoću da je procjena x ar odstupa od njegovog matematičko očekivanje manje od s.

gdje je F 0 (x) normalizirana Laplaceova funkcija, o kojoj je već bilo riječi u poglavlju 2. Za nju su sastavljene tabele (vidi Dodatak 5).

Koristimo podatke primjera koji razmatramo i ocjenjujemo tačnost i pouzdanost x ar. Za naš primjer imamo: x ar = 90; D x = 57,5; d x = 7.6. Nađimo vjerovatnoću da, pod pretpostavkom M[X] * x ar, nećemo napraviti više od e - 3 greške.

Prema formulama (6.60) - (6.62) dobili smo:

Prema tabeli u Dodatku 5, nalazimo F o (1,765) = 0,46164, tj. vjerovatnoću da će greške od zamjene M[X] sa x ar ne prelazi 3 je približno jednako 0,92 (92%). Ova vjerovatnoća se može smatrati dovoljnom.

Dokazano je da kada n> 20 rezultat Dx bez obzira na distribuciju slučajne varijable X je približno raspoređen normalan zakon sa parametrima:

Zamjena u formulama (6.64)-(6.66) D[X] its statistička evaluacija Dx dobijamo:

Koristeći podatke primjera, prema formulama (6.67) i (6.69) dobijamo:

Sada, koristeći formulu (6.63), nalazimo vjerovatnoću da je procjena Dx odstupiti od njegovog istinska vrijednost D[X] je manji od e = 3.


Prema tabeli u Dodatku 5, nalazimo FD0D6) = 0,06356, tj. vjerovatnoću da se procjena zamjene D[X] sa Dx biće manji od 3 jednako 0,13 (13%), što očigledno nije dovoljno. Imamo samo 20 zapažanja, a formule (6.64)-(6.66) rade za n > 20.

Već smo rekli da je naš primjer edukativan. AT stvarni zadaci podataka ima mnogo više, pa će vjerovatnoća dobijena formulom (6.63) biti mnogo veća.

Histogram koji smo dobili (vidi sliku 6.2.) je grafička slika našu distribuciju. Ali koristeći histogram dalje istraživanje neugodno. Stoga se postavlja pitanje kako odabrati analitičku zavisnost (formulu) za ovu konkretnu distribuciju, koja bi izražavala samo bitne karakteristike naše distribucije. Ovaj zadatak nazivaju, poravnajte statističke distribucije. Histogrami se obično niveliraju, odnosno zamjenjuju se nekom teorijskom krivom koja ima određeni analitički izraz. I tada se ovaj izraz uzima kao gustina raspodjele f(x).

U primjeru koji razmatramo, histogram koji smo konstruirali prema normalnom zakonu poravnavamo s parametrima x ar= 90; a x \u003d 7,6, tj. u izrazu za gustinu normalne distribucije

Zamijenimo M[X] i a[X] njihovim procjenama i dobijemo

Kao vrijednosti X uzimamo granice intervala u našem grupisanom nizu, zamjenjujemo ih u formulu (6.70) i ​​dobivamo:

Dobijeni podaci su prikazani na slici 6.2 i dobijamo glatku krivu.

Sada testirajmo hipotezu H o zakonu normalne raspodjele sa gustinom f(x). Hipoteza H o je suprotna alternativnoj hipotezi H 1 koja kaže da slučajna varijabla X ne poštuje normalni zakon s parametrima x ar= 90; i x = 7,6.

Da bi se zaključilo da li su podaci opservacije u skladu sa hipotezom koju smo postavili, koristi se test dobrobiti. Kriterijum dobrog uklapanja je kriterijum za testiranje hipoteze o zakonu raspodele. Koristi se za provjeru slaganja predloženog tipa zakona raspodjele s eksperimentalnim podacima.

Postoje različiti kriterijumi pristanka: Pearson, Fisher, Kolmogorov, itd.

Prilikom testiranja hipoteza mogu se napraviti dvije vrste grešaka. Greška prve vrste je da se ispravna nulta hipoteza H o odbacuje; greška druge vrste - da se ispravna alternativna hipoteza odbacuje

Verovatnoća greške prve vrste (a) naziva se nivo značajnosti kriterijuma. Što je manje a, to je manja vjerovatnoća odbacivanja ispravne hipoteze H o dopuštenom a obično se unaprijed postavlja. U pravilu se koriste standardne vrijednosti \u003d 0,01; 0,05; 0.1.

Vjerovatnoća greške druge vrste je označena sa str. Vrijednost (1 - p) - vjerovatnoća izbjegavanja greške druge vrste (da se prihvati tačna hipoteza i odbije netačna hipoteza H 0) - naziva se snaga kriterija.

Prvo koristimo za testiranje hipoteze o normalna distribucija Pearsonov kriterijum (x 2) - Dajemo sažetak teorijske informacije. Pretpostavimo da je izvedeno n eksperimenata u svakom od kojih je slučajna varijabla X uzela određenu vrijednost, tj. x 1 x 2 ....., x k (za- broj mogućih vrijednosti

slučajna varijabla X). Kao rezultat, dobijamo statističku seriju distribucije (tabela 6.6).

Tabela 6.6

gdje su odgovarajuće vjerovatnoće.

Smatramo da odstupanja / od R imaju nasumične uzroke. Da bi se testirala uvjerljivost postavljene hipoteze, potrebno je odabrati neku mjeru neslaganja između statističke i teorijske distribucije.

Kada se koristi Pearsonov kriterijum, zbir kvadrata odstupanja (/. - R.), uzeti sa nekim utezima SA ( , tj.

Upisuju se težine S., budući da se odstupanja odnose na različite vrijednosti R., ne može se smatrati jednakim po važnosti.

Pearson je to dokazao ako uzmemo

zatim na veliki brojevi eksperimenti P zakon raspodjele količine Ra ima sljedeća svojstva: praktično ne zavisi od zakona distribucije slučajne varijable X, malo zavisi od broja eksperimenata n, zavisi samo od broja vrednosti slučajne varijable X(k) i na br -> oo se približava distribuciji x 2 Stoga je mera diskrepancije u ovom slučaju označena % 2 , tj.

Unesite n pod predznak zbira, s obzirom na to, i nakon toga

transformacije koje dobijamo

Distribucija x 2 ovisi o parametru koji se naziva broj stupnjeva slobode (r s), koji je definiran na sljedeći način:

gdje Se-- iznos nezavisnih uslova, koji su superponirani na relativne frekvencije. Za naš primjer Se= 3. Zahtevali smo da se ispune sledeći uslovi:

Za distribuciju % 2 sastavljene su tabele (vidi Dodatak 6). Za naš primjer, testirajmo hipotezu normalne distribucije koristeći Pearsonov test.

Vratimo se stolu. 6.5, gdje postoji jedna prazna kolona (R.) - to su teorijske vjerovatnoće pada u interval slučajne varijable X, koja ima normalnu distribuciju sa parametrima x ar = 90; i x = 7,6.

Da bismo ih pronašli, koristimo formulu (2.44). Dobijamo:

gdje je F o (x) normalizirana Laplaceova funkcija, za koju su, kao što smo već rekli, sastavljene tabele (vidi Dodatak 5).

Dobijene vrijednosti vjerovatnoće će biti unesene u tabelu. 6.5. Nadalje, prema formuli (6.74), dobijamo:

Broj stepeni slobode u našem slučaju je r, = 6 - 3 = 3. Nivo značajnosti je uzet jednak 0,1, tj. a = 0,1. Prema tabeli raspodjele x 2 (vidi Dodatak 6), prema nivou značajnosti a = 0,1 i prema broju stupnjeva slobode r = 3, nalazimo %m = 6,25.

As Xm > X R, tada hipoteza normalne distribucije nije u suprotnosti sa podacima opservacije i može se prihvatiti sa nivoom značajnosti od 0,1. Ako ne postoji tabela raspodjele x 2, da se procijeni slučajnost neslaganja /. od R. možete koristiti kriterij Romanovskog

Ako je omjer (6,76) manji od tri, onda je neslaganje između stvarne i teorijske distribucije slučajno, u suprotnom su značajne.

Za primjer podataka imamo , pa se može prihvatiti i hipoteza o normalnoj distribuciji.

Sada primijenimo Kolmogorovljev test dobrote prilagodbe da testiramo hipotezu o normalnoj distribuciji.

Kolmogorovljev kriterijum se zasniva na pronalaženju maksimalnog odstupanja između akumuliranih frekvencija ili relativnih frekvencija eksperimentalne distribucije i verovatnoće teorijske distribucije. Određuje se formulama:

ako koristimo akumulirane relativne frekvencije;

ako koristimo akumulirane frekvencije, gdje d M- maksimalna vrijednost odstupanja između akumuliranih relativnih frekvencija i vjerovatnoća;

D M- maksimalna razlika između stvarne i teorijske frekvencije.

Koristićemo formulu (6.77), a potrebne podatke smestiti u tabelu. 6.8.

Iz tabele. 6.8 proizlazi da, dakle, prema formuli

(6,75) dobijamo

Tabela 6.8

Akumulirano f i R

Zatim prema tabelama R()(vidi Dodatak 8) nalazimo P(X k)= 1. Dakle, možemo pretpostaviti da su neslaganja između relativnih frekvencija i teoretskih vjerovatnoća slučajne prirode, te stoga hipoteza normalne distribucije nije u suprotnosti sa podacima opservacije.

U zaključku još jednom ponavljamo da je naš primjer edukativne prirode. Treba imati na umu da kada se koristi Pearsonov kriterijum, broj zapažanja treba da bude najmanje nekoliko desetina, svaka znamenka treba da sadrži najmanje pet zapažanja, a broj znamenki treba da bude otprilike 10-15.

Pitanja za samoispitivanje

  • 1. Koje vrste prosjeka se koriste u statistici?
  • 2. Kako se određuju harmonijska jednostavna i ponderisana sredina?
  • 3. Kako se određuju geometrijska jednostavna i ponderisana sredina?
  • 4. Kako se određuje jednostavna i ponderisana aritmetička sredina?
  • 5. Kako se izračunavaju RMS i RMS?
  • 6. Koje indikatore varijacije poznajete?
  • 7. Koji je raspon varijacije i srednje linearno odstupanje? Koje se formule koriste za njihovo izračunavanje?
  • 8. Šta je varijansa i standardna devijacija? Koje se formule koriste za njihovo izračunavanje?
  • 9. Koja je formula za disperziju kvalitativne osobine?
  • 10. Koliki je koeficijent varijacije? Kakav je njen značaj za ekonomsku analizu?
  • 11. Šta je pravilo sabiranja varijanse?
  • 12. Šta su asimetrija i kurtozis i koje formule se koriste za njihovo pronalaženje?