Biografije Karakteristike Analiza

Varijacija se u statistici naziva. Varijacije i serije varijacija, raspon varijacija

Pojam varijacije i njeno značenje

Varijacija ovo je razlika u vrijednostima bilo kojeg atributa u različitim jedinicama dane populacije u istom razdoblju ili točki u vremenu.

Na primjer, zaposlenici poduzeća razlikuju se po primanjima, vremenu provedenom na poslu, visini, težini i tako dalje.

Varijacija nastaje kao rezultat činjenice da se pojedinačne vrijednosti atributa formiraju pod kombiniranim utjecajem različitih čimbenika (uvjeta), koji se kombiniraju na različite načine u svakoj odvojeni slučaj. Stoga je vrijednost svake opcije objektivna.

Proučavanje varijacija u statistici ima veliki značaj, jer pomaže u razumijevanju suštine fenomena koji se proučava. Mjerenje varijacije, pronalaženje njezina uzroka, utvrđivanje utjecaja pojedinih čimbenika daje važna informacija(primjerice, o životnom vijeku ljudi, prihodima i rashodima stanovništva, financijskom stanju poduzeća itd.) za donošenje znanstveno utemeljenih upravljačkih odluka.

Prosječna vrijednost daje generalizirajuću karakteristiku svojstva proučavane populacije, ali ne otkriva strukturu populacije, što je vrlo bitno za njezino poznavanje. Prosjek ne pokazuje kako se varijante prosječnog obilježja nalaze blizu njega, jesu li koncentrirane blizu prosjeka ili značajno odstupaju od njega. Stoga se za karakterizaciju fluktuacije znaka koriste indikatori varijacije.

Indikatori varijacije i njihovo značenje u statistici

Za mjerenje varijacije svojstva u populacijama koriste se sljedeći generalizirajući pokazatelji varijacije: raspon varijacije, srednja linearna devijacija, varijanca i srednja vrijednost standardna devijacija .

1. Najčešći apsolutni pokazatelj je raspon varijacije(), definirana kao razlika između najveće () i najmanje () vrijednosti opcija.

. (5.1)

Ovaj pokazatelj je lako izračunati, što je dovelo do njega. široku upotrebu. Međutim, on obuhvaća samo ekstremna odstupanja i ne odražava odstupanja svih varijanti u seriji.

2. Za generalizirajuću karakteristiku distribucije odstupanja izračunavamo srednje linearno odstupanje , definiran kao aritmetička sredina odstupanja pojedinačne vrijednosti od srednje vrijednosti, bez uzimanja u obzir predznaka ovih odstupanja:

Neponderirana srednja linearna devijacija:

, (5.2)

Ponderirano srednje linearno odstupanje:

. (5.3)

U ovim se formulama razlike u brojniku uzimaju modulo, inače će brojnik uvijek biti nula. Stoga se prosječno linearno odstupanje kao mjera varijacije obilježja rijetko koristi u statističkoj praksi, samo u slučajevima kada zbrajanje pokazatelja bez uzimanja u obzir predznaka ima ekonomski smisao. Uz njegovu pomoć analizira se, na primjer, sastav radnika, ritam proizvodnje, promet vanjske trgovine.

3. Mjeru varijacije objektivnije odražava pokazatelj disperzija ( - srednji trg odstupanja), definirana kao prosjek kvadratnih odstupanja:

Neponderirano:

, (5.4)

Ponderirano:

. (5.5)

Disperzija je od velike važnosti u ekonomske analize. NA matematička statistika važna uloga za karakterizaciju kvalitete statističkih procjena, njihova varijanca igra.

4. Kvadratni korijen varijance "srednjih kvadratnih odstupanja" je standardna devijacija:

Standardna devijacija je generalizirajuća karakteristika veličine varijacije značajke u agregatu. Pokazuje kako u prosjeku određene opcije odstupaju od svoje prosječne vrijednosti; je apsolutna mjera fluktuacija atributa i izražava se u istim jedinicama kao i varijante, stoga se ekonomski dobro tumači.

Kako manje vrijednosti disperzije i standardne devijacije, to će populacija biti homogenija (kvantitativno) i prosječna vrijednost će biti tipičnija.

U statističkoj praksi često postaje potrebno usporediti varijacije različitih karakteristika (na primjer, usporedbu varijacija u dobi radnika i njihovim kvalifikacijama, radnom stažu i veličini plaće).

Za usporedbu upotrijebite sljedeće relativna izvedba:

Koeficijent oscilacije- odražava relativnu fluktuaciju ekstremne vrijednosti karakteristika oko srednje vrijednosti:

. (5.7)

Relativno linearno odstupanje karakterizira udio prosječne vrijednosti apsolutnih odstupanja od prosječne vrijednosti:

. (5.8)

Koeficijent varijacije je najčešća mjera volatilnosti koja se koristi za procjenu tipičnosti srednje vrijednosti:

. (5.9)

Ako je , onda to ukazuje na veliku fluktuaciju svojstva u proučavanoj populaciji.

5.3 Varijanca: svojstva i metode izračuna

Disperzija ima niz svojstava koja omogućuju pojednostavljenje njezinih izračuna.

1) Ako je od svih vrijednosti opcija oduzeta nekima stalni broj, tada se srednja kvadratna odstupanja od ovoga neće promijeniti:

. (5.10)

2) Ako se sve vrijednosti opcije dijele s nekim konstantnim brojem, tada će se prosječni kvadrat odstupanja smanjiti za faktor, a standardna devijacija za faktor.

. (5.11)

3) Ako izračunate srednji kvadrat odstupanja od bilo koje vrijednosti, koja se donekle razlikuje od aritmetičke sredine, tada će uvijek biti veći od srednjeg kvadrata odstupanja, izračunatog iz aritmetičke sredine:

Naime, prosječni kvadrat odstupanja bit će veći za kvadrat razlike između prosjeka i ove uvjetno uzete vrijednosti, tj. na:

Varijanca od srednje vrijednosti ima svojstvo minimalnosti, tj. uvijek je manja od varijanci izračunatih iz bilo koje druge količine. U ovom slučaju, kada se izjednači s nulom, formula postaje:

. (5.14)

Koristeći drugo svojstvo varijance, dijeleći sve opcije s vrijednošću intervala, dobivamo sljedeću formulu za izračun varijance u varijacijskim serijama s u jednakim razmacima prema metodi momenata:

, (5.15)

gdje je disperzija izračunata metodom momenata;

5.3. Indikatori varijacije

cilj statistička istraživanja otkriva osnovna svojstva i obrasci proučavane statističke populacije. U procesu obrade objedinjenih podataka statističko promatranje grade distribucijski vodovi. Postoje dvije vrste serija distribucije - atributivne i varijacijske, ovisno o tome je li atribut uzet kao osnova grupiranja kvalitativni ili kvantitativni.

varijacijski nazvane serije distribucije izgrađene na kvantitativnoj osnovi. Vrijednosti kvantitativne osobine za pojedine cjeline agregati nisu konstantni, oni se više ili manje međusobno razlikuju. Ova razlika u vrijednosti neke osobine naziva se varijacije. Odvojeni brojčane vrijednosti osobine koje se javljaju u proučavanoj populaciji nazivaju se vrijednosne opcije. Prisutnost varijacije u pojedinim jedinicama populacije posljedica je utjecaja velikog broja čimbenika na formiranje razine svojstava. Proučavanje prirode i stupnja varijacije znakova u pojedinim jedinicama populacije je kritično pitanje bilo koje statističke studije. Indikatori varijacije koriste se za opisivanje mjere varijabilnosti svojstva.

Još važan zadatak statističko istraživanje je utvrditi ulogu pojedinih čimbenika ili njihovih skupina u varijaciji određenih znakova populacije. Da bismo riješili ovaj problem u statistici, posebne metode studije varijacija temeljene na korištenju bodovne kartice koja mjeri varijacije. U praksi se istraživač suočava s dovoljno velika količina opcije za vrijednosti atributa, što ne daje ideju o raspodjeli jedinica po vrijednosti atributa u agregatu. Da biste to učinili, sve varijante vrijednosti atributa raspoređene su uzlaznim ili silaznim redoslijedom. Ovaj proces se zove red poredak. Rangirana serija odmah daje Generalna ideja o vrijednostima koje značajka zauzima u agregatu.

Nedovoljnost prosječne vrijednosti za iscrpnu karakterizaciju populacije čini nužnim dopuniti prosječne vrijednosti pokazateljima koji omogućuju procjenu tipičnosti tih prosjeka mjerenjem fluktuacije (varijacije) osobine koja se proučava. Korištenje ovih pokazatelja varijacije omogućuje stvaranje Statistička analiza potpunije i sadržajnije, a time i dublje razumijevanje biti proučavanih društvenih pojava.

po najviše jednostavni znakovi varijacije su minimum i maksimum - je najmanji i najveća vrijednost osobina u agregatu. Poziva se broj ponavljanja pojedinih varijanti vrijednosti značajki stopa ponavljanja. Označimo učestalost ponavljanja vrijednosti obilježja fi, zbroj učestalosti jednak volumenu proučavane populacije bit će:

gdje k– broj varijanti vrijednosti atributa. Prikladno je zamijeniti frekvencije frekvencijama - w.i. Frekvencija- pokazatelj relativne učestalosti - može se izraziti u dijelovima jedinice ili postotku i omogućuje vam usporedbu nizova varijacija s drugačiji broj zapažanja. Formalno imamo:

Za mjerenje varijacije svojstva koriste se različiti apsolutni i relativni pokazatelji. Apsolutni pokazatelji varijacije uključuju srednju linearnu devijaciju, raspon varijacije, varijancu, standardnu ​​devijaciju.

Varijacija raspona(R) je razlika između maksimalne i minimalne vrijednosti svojstva u proučavanoj populaciji: R= Xmax – Xmin. Ovaj pokazatelj daje samo najopćenitiju ideju o fluktuaciji osobine koja se proučava, jer pokazuje razliku samo između graničnih vrijednosti opcija. Ona je potpuno nepovezana s frekvencijama u varijacijskom nizu, tj. s prirodom distribucije, a njezina ovisnost može je učiniti nestabilnom, slučajni lik samo od ekstremnih vrijednosti atributa. Raspon varijacije ne daje nikakve informacije o značajkama proučavanih populacija i ne dopušta nam procjenu stupnja tipičnosti dobivenih prosječnih vrijednosti. Opseg ovog pokazatelja ograničen je na prilično homogene populacije, točnije, karakterizira varijaciju svojstva, pokazatelj koji se temelji na uzimanju u obzir varijabilnosti svih vrijednosti svojstva.

Da bi se okarakterizirala varijacija osobine, potrebno je generalizirati odstupanja svih vrijednosti od bilo koje vrijednosti tipične za populaciju koja se proučava. Takvi pokazatelji

varijacije, kao što su srednja linearna devijacija, varijanca i standardna devijacija, temelje se na razmatranju odstupanja vrijednosti atributa pojedinih jedinica populacije od aritmetičke sredine.

Prosječno linearno odstupanje je aritmetička sredina apsolutnih vrijednosti odstupanja pojedinih opcija od njihove aritmetičke sredine:


apsolutna vrijednost(modul) odstupanje varijante od aritmetičke sredine; f– frekvencija.

Prva formula se primjenjuje ako se svaka od opcija pojavljuje u agregatu samo jednom, a druga - u nizu s nejednakim frekvencijama.

Postoji još jedan način za izračunavanje prosjeka odstupanja opcija od aritmetičke sredine. Ova metoda, koja je vrlo česta u statistici, svodi se na izračunavanje kvadrata odstupanja opcija od srednje vrijednosti i njihovo usrednjavanje. U ovom slučaju dobivamo novi pokazatelj varijacije - varijancu.

Disperzija(?2) - prosjek kvadratnih odstupanja varijanti vrijednosti osobina od njihove prosječne vrijednosti:

Druga formula se koristi ako varijante imaju vlastite težine (ili učestalosti serije varijacija).

U ekonomskoj i statističkoj analizi uobičajeno je ocjenjivati ​​varijaciju atributa najčešće koristeći standardnu ​​devijaciju. Standardna devijacija(?) je kvadratni korijen varijance:

Srednja linearna i srednja kvadratna odstupanja pokazuju koliko vrijednost atributa u prosjeku fluktuira za jedinice proučavane populacije, a izražene su u istim jedinicama kao i varijante.

U statističkoj praksi često postaje potrebno usporediti varijacije različitih obilježja. Na primjer, veliki interes predstavlja usporedbu varijacija u dobi osoblja i njihovim kvalifikacijama, radnom stažu i plaćama itd. takve usporedbe pokazatelji apsolutne varijabilnosti znakova - prosječna linearna i standardna devijacija - nisu prikladni. Nemoguće je, naime, usporediti fluktuaciju radnog staža, izraženu u godinama, s fluktuacijom plaća, izraženu u rubljama i kopejkama.

Pri usporedbi varijabilnosti raznih svojstava u agregatu zgodno je koristiti relativne pokazatelje varijabilnosti. Ovi se pokazatelji izračunavaju kao omjer apsolutnih pokazatelja i aritmetičke sredine (ili medijana). Koristeći kao apsolutni pokazatelj varijacije raspon varijacije, prosječnu linearnu devijaciju, standardnu ​​devijaciju, dobivaju se relativni pokazatelji fluktuacije:


- najčešće korišteni pokazatelj relativne volatilnosti, koji karakterizira homogenost populacije. Skup se smatra homogenim ako koeficijent varijacije ne prelazi 33% za distribucije bliske normalnim.

Varijacija- ovo je promjena (fluktuacija) vrijednosti atributa unutar proučavane populacije tijekom prijelaza s jednog objekta (skupine objekata) ili s jednog slučaja na drugi. Apsolutni i relativni pokazatelji varijacije, koji karakteriziraju fluktuaciju vrijednosti varirajućeg atributa, omogućuju, posebice, mjerenje stupnja povezanosti i međuovisnosti između obilježja, određivanje stupnja homogenosti populacije, tipičnost i stabilnost prosjeka, odrediti veličinu pogreške uzorkovanja, statistički ocijeniti zakon raspodjele populacije itd. .

U ovoj temi potrebno je razumjeti bit (značenje), svrhu i metode izračuna svakog pokazatelja varijacije koji se razmatra u tijeku teorije statistike: raspon varijacije, prosječno linearno odstupanje, prosječni kvadrat odstupanja ( varijanca), standardna devijacija, relativni koeficijenti varijacije (koeficijent oscilacije, koeficijent prosječne linearne devijacije, koeficijent varijacije).

Raspon varijacija (R) je razlika između maksimalne (x max) i minimalne (x min) vrijednosti svojstva u agregatu (u seriji distribucije):

R = x max - x min. (5.1)

Mjera ostalih pokazatelja varijacije nije razlika između ekstremnih vrijednosti svojstva, već prosječna razlika između svake vrijednosti svojstva i prosjek ovi znakovi. Razlika između vrijednosti jednog obilježja i prosjeka naziva se odstupanje.

Prosječno linearno odstupanje izračunava se prema sljedećim formulama:

prema pojedinačnim (negrupiranim) podacima

; (5.2)

prema serijama varijacija (grupirani podaci)

. (5.3)

Budući da je algebarski zbroj odstupanja pojedinih vrijednosti obilježja od sredine (prema svojstvu nule) uvijek jednak nuli, pri izračunavanju prosječnog linearnog odstupanja koristi se aritmetički zbroj odstupanja, uzet modulo, tj.
.

Prosječno linearno odstupanje ima istu dimenziju kao atribut za koji se izračunava.

Disperzija i standardna devijacija. Srednje linearno odstupanje se relativno rijetko koristi za procjenu varijacije svojstva. Stoga se obično izračunavaju disperzija ( 2) i standardna devijacija (). Ovi se pokazatelji koriste ne samo za procjenu varijacije svojstva, već i za mjerenje odnosa među njima, za procjenu veličine pogreške uzorkovanja i u druge svrhe.

Varijanca obilježja izračunati po formulama:

prema primarnim podacima

; (5.4)

varijacijskim serijama

. (5.5)

Standardna devijacija je kvadratni korijen varijance:

prema primarnim podacima

; (5.6)

varijacijskim serijama

. (5.7)

Standardna devijacija, kao i prosječna linearna devijacija, ima istu dimenziju kao i sama izvorna značajka.

Varijanca se također može definirati kao razlika između srednjeg kvadrata opcija i kvadrata njihove srednje vrijednosti, tj.
. (5.8)

U ovom slučaju, prema primarnim podacima, varijanca je:

(5.9)

S obzirom na grupirane podatke, izračun varijance ovom metodom u proširenom obliku može se prikazati na sljedeći način:

. (5.10)

Za serije distribucije s jednakim intervalima, vrijednost varijance može se izračunati metodom uvjetnih momenata, tj.

, (5.11)

gdje
- prvi uvjetni trenutak; (5.12)

- drugi uvjetni trenutak. (5.13)

Standardna devijacija prema metodi uvjetnih momenata određena je formulom:

(5.14)

Transformacijom izraza za izračunavanje varijance prema metodi uvjetnih momenata dobivamo formulu oblika:
(5.15)

Na temelju istih početnih podataka dobivamo istu vrijednost disperzije.

Indikatori relativne varijacije izračunavaju se kao omjer određenog broja indikatora apsolutne varijacije i njihove aritmetičke sredine i izražavaju se kao postotak:

koeficijent oscilacije -
; (5.16)

koeficijent relativnog linearnog odstupanja -
; (5.17)

koeficijent varijacije -
. (5.18)

Zadatak 1. Razmotrite metode za izračunavanje pokazatelja varijacije na temelju podataka u tablici. 5.1.

Tablica 5.1. Početni podaci za izračunavanje pokazatelja varijacije

Troškovi vremena za izradu dijelova min

Broj dijelova, kom. (f)

Sredina intervala (x)

; k = 2

Zadana serija distribucije je rangirana, tako da je ovdje lako pronaći minimalnu vrijednost obilježja, ona je jednaka 8 min. (10 - 2), a maksimalno, jednako 18 min. (16 + 2). To znači da će raspon varijacije značajke u ovoj seriji biti 10 minuta, tj.

R \u003d x max - x min \u003d 18 - 8 \u003d 10 min.

Izračunajmo prosječno linearno odstupanje. Prije svega, morate izračunati prosječnu vrijednost . Svi izračuni će se provesti u tabelarnom obliku (tablica 5.1.), uz dodjeljivanje stupca u tablici za svaku računsku operaciju.

Budući da su početni podaci prikazani nizom distribucija, onda

min.

min.

Pokažimo kako izračunati varijancu:

a) na uobičajeni način (po definiciji):

;

b) kao razlika između kvadrata srednje vrijednosti i kvadrata srednje vrijednosti:

Za određivanje vrijednosti disperzije ovom formulom potrebno je izračunati srednji kvadrat opcija svojstava pomoću formule:

;

 2 \u003d 178,6 - (13,2) 2 \u003d 4,36;

c) prema metodi uvjetnih momenata:

;

;

d) na temelju transformacije formule za izračun varijance prema metodi uvjetnih momenata imamo:

Disperzija je apstraktan broj koji nema mjerne jedinice.

Standardnu ​​devijaciju izračunavamo uzimanjem kvadratnog korijena varijance:

min.

Prema metodi uvjetnih momenata, vrijednost standardne devijacije se određuje na sljedeći način:

Izračunajmo relativne pokazatelje varijacije:

%;

%;

%.

Glavni relativni pokazatelj varijacije je koeficijent varijacije (V). Služi za usporednu ocjenu mjere fluktuacije znakova izraženih u različitim mjernim jedinicama.

Uz varijaciju kvantitativnih svojstava može se uočiti i varijacija kvalitativnih svojstava (osobito alternativna varijabilnost kvalitativnih svojstava). U ovom slučaju svaka jedinica proučavane populacije ili ima neko svojstvo ili ga nema (na primjer, svaka odrasla osoba ili radi ili ne). Prisutnost obilježja u jedinicama populacije označava se s 1, a odsutnost s -0; udio populacijskih jedinica koje imaju proučavanu karakteristiku označen je s p, a onih koje je nemaju - q. Varijanca alternativnog atributa određena je formulom:

; (5.19)

p + q = 1 (5.20)

Ako je npr. udio onih koji su upisali fakultet 30%, a onih koji nisu upisali fakultet 70%, tada je varijanca 0,21(0,3 0,7). najveća vrijednost umnoška pq je 0,25 (pod uvjetom da jedna polovica jedinica ima to svojstvo, a druga polovica ne: (0,5 0,5 = 0,25).

Metoda dekompozicije ukupne varijance. Za procjenu utjecaja različitih čimbenika koji određuju fluktuaciju pojedinačnih vrijednosti nekog svojstva koristit ćemo se dekompozicijom ukupne varijance na komponente: tzv. grupnu varijancu i prosjek unutargrupnih varijanci:

, (5.21)

gdje
ukupna varijanca, koji karakterizira varijaciju osobine kao rezultat utjecaja svih čimbenika koji određuju individualne razlike u jedinicama populacije.

Varijaciju atributa, zbog utjecaja faktora koji je u osnovi grupiranja, karakterizira međugrupna disperzija  2, koja je mjera fluktuacije privatnih prosjeka za grupe
oko ukupnog prosjeka i izračunava se formulom:

, (5.22)

gdje je n j broj populacijskih jedinica u svakoj skupini;

j- serijski broj skupine.

Varijantnost znaka, zbog utjecaja svih drugih čimbenika, osim grupiranja (faktorijela), karakterizirana je u svakoj skupini unutargrupnom varijancom:

, (5.23)

gdje je i redni broj x i f unutar svake grupe.

Za populaciju kao cjelinu, prosjek unutargrupnih disperzija određuje se formulom:

(5.24)

Omjer međugrupne disperzije  2 prema ukupnoj
dat će koeficijent determinacije:

(5.25)

koji karakterizira udio varijacije rezultirajućeg atributa, zbog varijacije faktorskog atributa, koji je osnova grupiranja.

Pokazatelj dobiven kao kvadratni korijen koeficijenta determinacije naziva se empirijskim koeficijentom korelacije, tj.

(5.26)

Karakterizira tijesnost odnosa između rezultantnih i faktorijelnih (što je osnova grupiranja) značajki. Brojčana vrijednost empirijskog koeficijenta korelacije ima dva predznaka: . Pri odlučivanju s kojim ga predznakom treba uzeti, mora se imati na umu: ako varijacija predznaka faktora i rezultante ide sinkrono u istom smjeru (povećava se ili opada), tada se korelacijski odnos uzima s predznakom plus; ako promjena ovih predznaka ide u suprotnim smjerovima, tada se uzima s predznakom minus.

Za izračun grupne i između grupne disperzije može se koristiti bilo koja od gore opisanih metoda za izračunavanje srednjih kvadratnih odstupanja.

Zadatak 2. Izračunajmo sve imenovane disperzije prema početnim podacima tab. 5.2.

Tablica 5.2. Raspodjela sjetvenih površina ozime pšenice prema prinosu

Broj lota

Produktivnost, c/ha

sjetvena površina, ha

Izračunajte prosječni prinos ozime pšenice za sve parcele (ukupni prosjek):

c/ha.

Ukupnu varijancu nalazimo po formuli:

U gr. 6 tab. 5.2. izračunajte vrijednosti za izračunavanje srednjeg kvadrata opcija značajki:

.

Pronalaženje ukupne varijance:

Prinos ovisi o mnogim čimbenicima (kvaliteta tla, količina organskih i mineralnih gnojiva, kvaliteta sjemena, vrijeme sjetve, njega usjeva itd.). ovaj slučaj mjeri varijabilnost prinosa zbog svih faktora.

Zadatak 3. Podijelimo sveukupnost parcela u dvije skupine: I. skupina - sjetvene površine na kojima nisu primijenjena organska gnojiva; II - površine na koje su unesene. Prva skupina će uključivati ​​odjeljke 1-4, a druga - 4-8. Na temelju podataka ovih skupina izračunavamo ostatak disperzija koje su nam potrebne, koristeći one koje su već navedene u tablici. 5.2. kalkulacije.

Tablica 5.3. Procijenjeni podaci za izračun međugrupnih i grupnih varijanci

Broj lota

Produktivnost, centner/ha (x)

Zasijana površina, ha (f)

Broj lota

Produktivnost, centner/ha (x)

Zasijana površina, ha (f)

Definiramo:

za grupu I:

za skupinu II:

a) prosjek skupine

a) prosjek skupine

q/ha;

q/ha;

b) srednji kvadrat opcija obilježja

;

;

c) grupna varijanca

c) grupna varijanca

Određujemo prosjek varijanci grupe:

.

Pronalaženje međugrupne varijance:

Prosjek grupnih varijanci mjeri fluktuaciju svojstva zbog svih ostalih čimbenika, osim grupiranja koje je osnova (razgraničenje na skupine), te međugrupnog - zbog ovog posebnog čimbenika. Zbroj ovih varijanci trebao bi dati ukupnu varijancu, naime:

Omjer međugrupne disperzije prema ukupnoj u našem primjeru dat će sljedeću vrijednost koeficijenta determinacije:

, odnosno 71,8 posto

tj. Varijacija prinosa ozime pšenice za 71,8% ovisi o varijaciji veličine primjene organskih gnojiva. Preostalih 28,2% variranja prinosa ovisi o utjecaju svih ostalih čimbenika, osim količine primijenjenog organskog gnojiva.

Empirijski koeficijent korelacije bit će:

.

To sugerira da primjena organskih gnojiva ima vrlo značajan utjecaj na prinose.

Kako dokazati da obrazac dobiven proučavanjem eksperimentalnih podataka nije rezultat slučajnosti ili pogreške eksperimentatora, da je pouzdan? Istraživači početnici suočavaju se s takvim pitanjem. Deskriptivna statistika pruža alate za rješavanje ovih problema. Ima dva velika dijela - opis podataka i njihovu usporedbu u grupama ili u nizu međusobno.

Pokazatelji deskriptivne statistike

Deskriptivna statistika koristi nekoliko pokazatelja.

Dakle, zamislimo da smo suočeni sa zadatkom da opišemo visinu svih učenika u grupi od deset ljudi. Naoružani ravnalom i mjerenjem dobivamo mali niz od deset brojeva (visina u centimetrima):

168, 171, 175, 177, 179, 187, 174, 176, 179, 169.

Ako pažljivo pogledate na ovoj linearnoj seriji možete pronaći nekoliko uzoraka:

  • Širina intervala u koji pada visina svih učenika je 18 cm.
  • U raspodjeli je rast najbliži sredini ovog intervala.
  • Postoje i iznimke koje su najbliže gornjoj ili donjoj granici intervala.

Sasvim je očito da za ispunjavanje zadaće opisa rasta učenika u grupi nije potrebno navesti sve vrijednosti koje će se mjeriti. U tu svrhu dovoljno je dati samo dva, koja se u statistici nazivaju parametri distribucije. Ovo je aritmetička sredina i standardna devijacija od aritmetičke sredine. Ako se okrenemo rastu učenika, formula će izgledati ovako:

Aritmetička sredina visina učenika = (Zbroj svih visina učenika) / (Broj učenika koji su sudjelovali u mjerenju)

Ako sve svedemo na stroge matematičke pojmove, tada će definicija aritmetičke sredine (označena grčkim slovom - μ ("mu")) zvučati ovako:

Aritmetička sredina je omjer zbroja svih vrijednosti jednog atributa za sve članove populacije (X) prema broju svih članova populacije (N).

Ako ovu formulu primijenimo na naše mjere, dobivamo da je μ za visinu učenika u skupini 175,5 cm.

Ako pažljivo pogledate rast učenika, koji smo izmjerili u prethodnom primjeru, jasno je da rast svakog od njih za nešto razlikuje od izračunatog prosjeka(175,5 cm). Da bismo dovršili opis, potrebno je razumjeti koja je razlika između prosječne visine svakog učenika i prosječne vrijednosti.

U prvoj fazi izračunavamo parametar disperzije. Disperzija u statistici (označava se σ 2 (sigma kvadrat)) je omjer zbroja kvadrata razlike između aritmetičke sredine (μ) i vrijednosti člana niza (X) prema broju svih članova niza. stanovništvo (N). U obliku formule to se jasnije izračunava:

Vrijednosti koje dobijemo kao rezultat izračuna pomoću ove formule, predstavit ćemo kao kvadrat vrijednosti (u našem slučaju kvadratni centimetar). Obilježiti rast u centimetrima kvadratnim centimetrima, vidite, smiješno je. Stoga možemo ispraviti, točnije, pojednostaviti ovaj izraz i dobiti prosjek standardna devijacija formula i izračun, primjer:

Tako smo dobili vrijednost standardne devijacije (ili korijen srednje kvadratne devijacije) - Korijen od disperzije. I s mjernim jedinicama, sada je sve u redu, možemo izračunati standardnu ​​devijaciju za grupu:

Ispada da je naša grupa studenata visinom izračunata na sljedeći način: 175,50 ± 5,25 cm.

Standardna devijacija dobro funkcionira sa serijama u kojima raspon vrijednosti nije jako velik (to se jasno vidjelo na primjeru rasta, gdje je interval bio samo 18 cm). Da je naš raspon mjerenja veći, a varijacija u visini veća, tada bi standardna devijacija postala indikativna i trebao bi nam kriterij koji može odražavati širenje u relativnim jedinicama (tj. u postocima, u odnosu na prosječnu vrijednost).

U tu svrhu daju se apsolutni i relativni pokazatelji varijacije u statistici, koji karakteriziraju skale varijacije:

  • Raspon varijacije.

Kvadratni koeficijent varijacije (označen kao Vσ) je omjer standardne devijacije i aritmetičke sredine, izražen kao postotak.

Za naš primjer sa studentima, određivanje Vσ nije teško - bit će jednako 3,18%. Glavni obrazac je da što se više mijenja vrijednost koeficijenta, to je veći raspon oko srednje vrijednosti i uzorak je manje homogen.

Prednost koeficijenta varijacije je što pokazuje homogenost vrijednosti (skewness) u nizu naših mjerenja, osim toga, na njega ne utječu skala i mjerne jedinice. Ovi faktori čine koeficijent varijacije posebno popularnim u biomedicinskim istraživanjima. razmatrat će se da kurtosis vrijednosti Vσ =33% odvaja homogene uzorke od heterogenih.

Ako pronađemo maksimalnu i minimalnu vrijednost u nizu vrijednosti rasta (prvi primjer), tada ćemo dobiti raspon varijacije (označen kao R, ponekad se naziva i volatilnost). U našem primjeru, ova vrijednost će biti jednaka 18 cm Ova karakteristika se koristi za izračunavanje koeficijenta oscilacije:

Koeficijent oscilacije - pokazuje kako će se raspon varijacije odnositi na srednju vrijednost aritmetički niz u postocima.

Izračuni u programu Microsoft Excel 2016

* - tablica prikazuje raspon A1:A10 na primjer, pri izračunu morate navesti traženi raspon.

Dakle, rezimirajmo:

  1. Aritmetička sredina je vrijednost koja vam omogućuje da pronađete prosječnu vrijednost pokazatelja u seriji podataka.
  2. Varijanca je prosječna vrijednost kvadrata odstupanja.
  3. Standardna devijacija ( standardna devijacija) je kvadratni korijen varijance, kako bi se mjerne jedinice izjednačile s aritmetičkom sredinom.
  4. Koeficijent varijacije - vrijednost odstupanja od srednje vrijednosti, izražena u relativne vrijednosti (%).

Zasebno treba napomenuti da svi pokazatelji navedeni u članku, u pravilu, nemaju vlastito značenje i koriste se za sastavljanje složenije sheme analize podataka. Iznimka od ovog pravila je koeficijent varijacije, koji je mjera homogenosti podataka.

Indikatori varijacije

Prosječna vrijednost ne dopušta procjenu onih fluktuacija (varijacija) kojima je ispitivana osobina podložna u ovoj populaciji. Srednje vrijednosti same po sebi nisu dovoljne za analizu. Potpuno različite u svom širenju oko sredine populacije mogu imati istu aritmetičku sredinu. Za pronalaženje vrijednosti varijacije u statistici koriste se posebni pokazatelji koji se nazivaju indikatori varijacije. Proučavanje varijacija u statistici je od velike važnosti jer pomaže razumjeti bit fenomena koji se proučava.

Navodimo glavne pokazatelje varijacije i dajemo formule za njihov izračun.

Za karakterizaciju veličine varijacije u statistici koriste se apsolutni pokazatelji varijacije: raspon varijacije, srednja linearna devijacija, standardna devijacija, varijanca.

Raspon varijacije je razlika između maksimalnog i minimalne vrijednosti osobina u proučavanoj populaciji, tj.

Raspon varijacije lako se pronalazi prema redovima rangirane serije distribucije.

Varijacija se točnije karakterizira srednjim linearnim odstupanjem, koje se nalazi kao aritmetička sredina odstupanja pojedinačnih vrijednosti od sredine bez uzimanja u obzir predznaka tih odstupanja, tj.

Ako su izvorni podaci grupirani, tada možemo pronaći ponderirano prosječno linearno odstupanje, a i frekvencija (p) i relativna frekvencija (/) mogu se koristiti kao težina.

Objektivnije u praksi, mjera varijacije odražava disperziju (srednja kvadratna odstupanja). O tome se raspravljalo u poglavlju 2. U ovom slučaju, pričamo o procjeni varijance, budući da vjerojatnosti nisu poznate.

Ako imamo negrupirani niz distribucije, tada je varijanca dana s

Imajte na umu da je procjena varijance dobivena formulom (6.28) pristrana. Koristeći se njime, napravit ćemo neke sustavna pogreška na manju stranu. Nepristrana procjena varijance nalazi se formulom

U pravilu se formula (6.30) koristi u slučajevima kada je populacija koja se proučava mala, ne više od 40 jedinica. U slučajevima kada n> 40 koristiti formulu (6.29).

Kada su izvorni podaci grupirani, izračunajte ponderirane procjene varijance

Izvlačenjem aritmetičkog kvadratnog korijena iz varijance dobivamo još jednu karakteristiku (o njoj je također bilo riječi u 2. poglavlju) - standardnu ​​devijaciju, odnosno standard (točnije, njegovu procjenu).

Ako je populacija koja se proučava dovoljno velika, tada se obično dijeli u skupine prema nekom kriteriju. Dakle, uz proučavanje varijacije svojstva u cijeloj populaciji kao cjelini, moguće je proučavati varijacije za svaku od njezinih sastavnih skupina, kao i između samih skupina. Ako je populacija podijeljena prema bilo kojem faktoru, tada se proučavanje varijacije postiže pronalaženjem i analizom tri vrste disperzije: opća, međugrupna, unutargrupna.

Ukupna varijanca (D x) određuje varijaciju u cijeloj populaciji pod utjecajem svih čimbenika koji su uzrokovali tu varijaciju. Jednaka je srednjem kvadratu odstupanja pojedinačne vrijednosti znak x (x ar) i izračunava se formulama (6.29), (6.31), (6.32).

Međugrupna varijanca F Hmg) karakterizira sustavnu varijaciju rezultirajućeg poretka, koja je posljedica utjecaja značajke koja je u osnovi grupiranja. Jednaka je srednjem kvadratu odstupanja grupnih sredina x argr od ukupne aritmetičke sredine x ar, tj.

gdje, do- broj grupa;

c. - učestalost (broj jedinica) u skupini r;

/. - relativna učestalost grupe G.

Intragrupna varijanca D Xez odražava slučajnu varijaciju (dio varijacije) zbog utjecaja faktora koji se ne uzimaju u obzir i neovisno o atributu koji je u osnovi grupiranja. Jednaka je srednjem kvadratu odstupanja pojedinačnih vrijednosti svojstva unutar skupine X. iz aritmetičke sredine ove grupe x argr a nalazi se po formulama:

ako grupa ne sadrži više od 40 opažanja;

ako grupa sadrži više od 40 opažanja (t- broj jedinica u pojedinoj skupini).

Također se primjenjuju formule za ponderiranu varijancu:

Nakon što smo pronašli unutargrupne varijance za svaku grupu, možemo izračunati prosjek unutargrupne varijance prema formulama:

ili pomoću relacije (6.13).

Prema pravilu za zbrajanje varijanci, ukupna varijanca treba biti jednaka zbroju međugrupnih i prosjeka unutargrupnih varijanci, tj.

Varijacija kvalitativnog (alternativnog) obilježja (značajka koju svaka jedinica populacije može ili ne mora imati) nalazi se korištenjem disperzije:

gdje S- udio populacijskih jedinica koje imaju kvalitativno svojstvo;

v- udio populacijskih jedinica koje nemaju kvalitativno svojstvo.

primijeti da S + v = 1.

Standardna devijacija kvalitetna osobina nalazi se prema formuli

Primjerice, ako na 10.000 stanovnika nekog okružnog centra 3.500 ima više obrazovanje, ali 6500 nemaju, dakle

Varijanca kvalitativnog svojstva jednaka je

Maksimalna vrijednost varijance kvalitativnog svojstva dobiva se ako S = v= 0,5. To će biti jednako 0,25.

Za karakterizaciju mjere raspršenosti osobine koja se proučava, pokazatelji varijacije nalaze se u relativnim jedinicama. Predstavit ćemo neke od njih.

Koeficijent oscilacije odražava relativno širenje ekstremnih vrijednosti oko aritmetičke sredine

Relativno linearno odstupanje karakterizira udio prosječne vrijednosti apsolutnih odstupanja od aritmetičke sredine, tj.

Koeficijent varijacije, koji je relativna standardna devijacija, tj.

Po vrijednosti koeficijenta varijacije može se suditi o intenzitetu varijacije svojstva, a samim tim i o homogenosti sastava proučavane populacije. Što je veća vrijednost koeficijenta varijacije, veće je širenje vrijednosti svojstva oko aritmetičke sredine, a time i veća heterogenost populacije. Postoji ljestvica za određivanje stupnja homogenosti populacije, ovisno o vrijednosti koeficijenta varijacije:

  • - ako je Vx
  • - ako 30%
  • - ako je V x > 60%, tada se populacija smatra heterogenom.

Imajte na umu da je navedena ljestvica prilično uvjetna.

Glavne karakteristike oblika distribucije su zakrivljenost i kurtoza. O njima se dovoljno detaljno raspravljalo u poglavlju 2. Ovdje pričat ćemo o njihovim procjenama, budući da je broj mjerenja konačan, a vjerojatnosti nepoznate. Zakošenost (skošenost) i kurtosis označit ćemo istim slovima kao u 2. poglavlju, ali ćemo na vrhu dodati tildu (~).

Za procjenu stupnja asimetrije distribucije obično se koristi momentni koeficijent asimetrije koji se nalazi po formuli

gdje je Dz procjena trećeg središnji trenutak, što se može odrediti formulama:

Stupanj značajnosti koeficijenta asimetrije procjenjuje se pomoću korijena srednje kvadratne pogreške koeficijenta asimetrije, koji ovisi o obujmu proučavane populacije (n) i nalazi se sljedećom formulom:

Ako je omjer , tada se asimetrija smatra značajnom, a ako je , tada se asimetrija može smatrati beznačajnom, uzrokovanom utjecajem slučajnih uzroka.

Glavni nedostatak momentnog koeficijenta asimetrije A x je što njegova vrijednost ovisi o prisutnosti oštro istaknutih varijanti u agregatu. Za takve populacije ovaj koeficijent je malo koristan, jer se njegova velika (apsolutna) vrijednost objašnjava prevladavajućim doprinosom atipičnih vrijednosti procjeni trećeg središnjeg trenutka, a ne asimetrijom distribucije glavnog dijela od varijante.

Strukturni koeficijenti asimetrije karakteriziraju asimetriju samo u središnjem dijelu distribucije, tj. najveći dio varijante i, za razliku od koeficijenta asimetrije trenutka, ne ovise o ekstremnim vrijednostima svojstva.

U pravilu se koristi koeficijent strukturne asimetrije koji je predložio K. Pearson:

Druga karakteristika oblika distribucije je kurtosis. Njegova procjena u statistici može se dobiti formulom

gdje je D 4 - procjena četvrtog središnjeg momenta, koji se može pronaći formulama

Kako biste procijenili značaj kurtoze distribucije, pronađite prosjek kvadratna greška kurtoza:

Ako je odstupanje onda je odstupanje od normale

distribucija se smatra značajnom, inače se prepoznaje kao beznačajna i objašnjava se slučajnim razlozima.

Sada dajmo konkretan primjer izračuna, u kojem definiramo niz gore navedenih karakteristika, a također se dotaknemo pitanja koja nisu razmatrana u ovom poglavlju. U ovom slučaju, uz proračune, ukratko ćemo razmotriti neka nužna teorijska pitanja.

Imajte na umu da je navedeni primjer čisto edukativan, podaci za njega uzeti su, kako kažu, "sa stropa". Osim toga, serija promatranja koja se razmatra sadrži samo 20 promatranja radi lakšeg izračuna, jer mnogi učenici imaju poteškoća čak i pri izračunavanju prosječnih vrijednosti. Trenutno postoji veliki broj programski paketi za određivanje statističke karakteristike, pa nitko više ne broji ručno. Mora se imati na umu da je kvaliteta početnih podataka od velike važnosti: ako su loše kvalitete, rezultat će biti isti, statistika i matematika u ovom slučaju neće pomoći.

Primjer 6.2

Pretpostavimo da smo primili statistički materijal o broju registriranih prometnih nesreća u okružnom središtu N. Prikazana je u obliku tablice (tablica 6.3), podaci u njoj dani su za datume tekuće godine.

Tablica 6.3

Broj nesreća (x,)

Broj nesreća (x.)

U ovom slučaju broj nesreća je slučajna varijabla X, a rezultati promatranja dati su u tablici. 6.3 - skup vrijednosti koje uzima ova slučajna varijabla, tj. X \u003d (Xj, x 2 ..., x 20). Podaci navedeni u tablici. 6.3, potrebno je racionalizirati, na primjer, lokaciju oživite ih uzlaznim redoslijedom vrijednosti proučavane značajke x. (r = 1,20). Ako se ista vrijednost ponavlja nekoliko puta, ponovite je. Kao rezultat toga, dobivamo statističke serije distribucije (vidi tablicu 6.4).

Na temelju rangiranih serija (vidi tablicu 6.4), možete konstruirati, na primjer, statističku funkciju distribucije F (x), koju smo razmatrali u 2. poglavlju.

F(x) je diskontinuirana stepenasta funkcija, kontinuirana lijevo i ima n skokova, (n je broj opažanja), a vrijednost svakog skoka je 1 /P. Budući da se neka promatranja podudaraju, skokovi se spajaju i njihov će broj biti jednak broju opaženih vrijednosti nasumična varijabla X. U našem slučaju F(x)će imati 15 skokova, iz čega proizlazi da ga je neracionalno graditi prema rangiranoj seriji, već se mora raditi prema grupiranoj seriji, o čemu će biti riječi nešto kasnije.

Tablica 6.4

Prema rangiranoj seriji (tablica 6.4) moguće je odrediti procjene numeričkih karakteristika promatrane slučajne varijable X (broj nesreća), na primjer, aritmetička sredina, varijanca, standardna devijacija, raspon varijacije itd. .

Izračunajmo, na primjer, raspon varijacije i aritmetičku sredinu:

svi numeričke karakteristike odredit ćemo do cijelih brojeva, budući da nema desetinki i stotinki slučajnosti. Ostale numeričke karakteristike možete izračunati prema tablici. 6.4, ali to ćemo učiniti grupiranim redom.

Na temelju niza statističke distribucije konstruiramo grupirani niz, o čemu smo govorili u poglavlju 4. Napominjemo da duljine intervala u njemu ne moraju biti iste, ali svaki od njih mora sadržavati opažanja, tj. ne smije postojati biti prazni intervali. U slučaju da vrijednost slučajne varijable X padne na granicu između znamenki, podijelit ćemo je jednako na susjedne znamenke, odnosno dodati 1/2 vrijednosti svake od njih.

Približno pronađite optimalan broj grupa (znamenki) s jednakim razmacima pomoću Sturgessove formule:

gdje do- broj znamenki;

P- broj opažanja.

Ali zadana formula je primjenjiv ako se distribucija slučajne varijable X koja se proučava približava normalnoj, ali to ne znamo. Stoga nećemo koristiti Sturgessovu formulu (u našem slučaju ona daje sljedeći rezultat do"5.3" 5).

Dobiveni grupirani niz prikazan je u tablici. 6.5. Osim pražnjenja, frekvencija, relativnih frekvencija, sadrži gustoće frekvencija i teorijske vjerojatnosti koje će biti potrebne u budućnosti.

Tablica 6.5

primijeti da

gdje f*- relativna gustoća frekvencije, tj. omjer relativne frekvencije i duljine intervala (u per

U našem slučaju, to je isto za sve znamenke).

Imajući grupiranu seriju (vidi tablicu 6.5), možemo približno konstruirati statističku funkciju distribucije F (x). Kao vrijednosti X za koje se određuje F (x), uzimamo granice ispuštanja. Funkcija statističke distribucije za naš primjer prikazana je na sl. 6.1.


Sada, koristeći grupirane serije (vidi tablicu 6.5), konstruiramo histogram, iscrtavajući pražnjenja duž apscisne osi i odgovarajuće relativne gustoće frekvencije duž ordinatne osi fv Kao rezultat toga, dobivamo skup pravokutnika, od kojih je površina svakog jednaka odgovarajućoj relativnoj frekvenciji (slika 6.2.).

Imajte na umu da se histogram može izgraditi korištenjem frekvencija ..

Sada, korištenjem grupiranog statističkog niza, dobivamo željene numeričke karakteristike slučajne varijable X koja se proučava (broj nesreća), tj. aritmetičku sredinu i neke pokazatelje varijacije. Koristit ćemo relativnu frekvenciju / (frekvenciju) kao težinu (možete koristiti, kao što smo već rekli, relativnu frekvenciju (a.) kao težinu).

Izračunajte težinu aritmetičke sredine:

Kao X. uzeti sredinu odgovarajućeg intervala. primijeti da x ar pokazalo se istim kao u rangiranoj seriji.

Pronalaženje varijance:

Određujemo standardnu ​​devijaciju:

Standardna devijacija je zaokružena na desetinke.

Nalazimo prosječno linearno odstupanje:

Izračunavamo koeficijent varijacije: tj. naša se ukupnost može smatrati homogenom.

Odredite koeficijent oscilacije:

Pomoću formula (6.21) i (6.23) izračunavamo modu i medijan. Pri izračunavanju ovih karakteristika koristimo frekvenciju..

Nalazimo momentni koeficijent asimetrije:

Da bismo to učinili, prvo odredimo procjenu trećeg središnjeg momenta:

Zato, A x~ -0,031, tj. imamo vrlo malu negativnu asimetriju.

Stupanj značajnosti asimetrije može se procijeniti pomoću srednje kvadratne pogreške koeficijenta asimetrije prema formuli

Jer , tada je asimetrija beznačajna i uzrokovana je utjecajem slučajnih čimbenika.

Sada izračunavamo kurtosis formulom Za to

Prvo, nalazimo procjenu za četvrti središnji trenutak:

Dakle, kurtosis je jednak. e. naša distribucija

blago pritisnut na os apscise.

Kako bismo odredili je li kurtosis distribucije značajan, izračunavamo njen korijen srednje kvadratne pogreške pomoću formule (6.55). Dobiti

Budući da je stav manje od 3, onda je odstupanje od

Imajte na umu da je standardna devijacija veličine uvijek veća od prosječne linearne devijacije. U našem slučaju

Omjer ovisi o prisutnosti oštrih odstupanja u agregatu i može biti pokazatelj njegove "kontaminacije" atipičnim jedinicama koje se izdvajaju iz mase. Za normalnu distribuciju, omjer

Za naš primjer, imamo

Zamjenjujući numeričke karakteristike slučajne varijable njihovim procjenama, činimo neku pogrešku. Poželjno je procijeniti ovu pogrešku i pronaći vjerojatnost (pouzdanost) da ona ne prelazi neki mali pozitivni s (točnost).

U našem primjeru smo zamijenili M[X] na os ar, a D[X] na D x . Ocijenimo točnost i pouzdanost ovih procjena na temelju rezultata našeg primjera.

Da bi se ocijenila točnost i pouzdanost procjene, potrebno je poznavati njezin zakon raspodjele. U mnogim slučajevima ovaj se zakon pokazuje blizu normalnog. Budući da je prosjek statistička značajnost slučajna varijabla X je zbroj dovoljno velikog broja nezavisnih slučajnih varijabli, tada prema središnjem granični teorem distribucije su blizu normalnih s matematičkim očekivanjima

i disperzije i stoga sa standardom

Da bi se odredili parametri normalne distribucije za koje se nalazi ocjena x ar, zamijenimo u formulama (6.57) - (6.59) prave parametre M[X], D i a(x) svojim procjenama x ap , D x, d x i dobivamo

Uz pretpostavku da je slučajna varijabla x ar ima normalnu distribuciju s parametrima M[x ar] i D, pronaći približno vjerojatnost da procjena x ar odstupa od njegovog matematičko očekivanje manje od s.

gdje je F 0 (x) normalizirana Laplaceova funkcija, o kojoj je već bilo riječi u poglavlju 2. Za nju su sastavljene tablice (vidi Dodatak 5).

Koristimo podatke primjera koji razmatramo i procjenjujemo točnost i pouzdanost x ar. Za naš primjer imamo: x ar = 90; D x = 57,5; d x = 7.6. Nađimo vjerojatnost da, uz pretpostavku M[X] * x ar, nećemo napraviti više od e - 3 pogreške.

Prema formulama (6.60) - (6.62) dobili smo:

Prema tablici u Dodatku 5, nalazimo F o (1,765) = 0,46164, tj. vjerojatnost da će pogreške zbog zamjene M[X] s x ar ne prelazi 3 približno je jednako 0,92 (92%). Ova se vjerojatnost može smatrati dovoljnom.

Dokazano je da kada n> 20 bodova Dx bez obzira na distribuciju slučajne varijable X približno je raspoređena na normalno pravo s parametrima:

Zamjena u formulama (6.64)-(6.66) D[X] svoj statistička procjena Dx dobivamo:

Koristeći podatke primjera, prema formulama (6.67) i (6.69) dobivamo:

Sada, pomoću formule (6.63), nalazimo vjerojatnost da je procjena Dx odstupiti od njegovog prava vrijednost D[X] je manji od e = 3.


Prema tablici u Dodatku 5 nalazimo FD0D6) = 0,06356, tj. vjerojatnost da je procjena zamjenom D[X] s Dx bit će manji od 3 jednak 0,13 (13%), što očito nije dovoljno. Imamo samo 20 opažanja, a formule (6.64)-(6.66) rade za n > 20.

Već smo rekli da je naš primjer edukativan. NA pravi zadaci ima puno više podataka, pa će vjerojatnost dobivena formulom (6.63) biti puno veća.

Histogram koji smo dobili (vidi sl. 6.2.) je grafička slika našu distribuciju. Ali pomoću histograma daljnje istraživanje neugodno. Stoga se postavlja pitanje kako za ovu razdiobu odabrati analitičku ovisnost (formulu) koja bi izražavala samo bitna obilježja naše razdiobe. Ovaj zadatak tzv., poravnati statističke distribucije. Obično se histogrami izjednače, tj. zamijene nekom teoretskom krivuljom koja ima određeni analitički izraz. I onda se ovaj izraz uzima kao gustoća distribucije f(x).

U primjeru koji razmatramo, poravnavamo histogram koji smo konstruirali prema normalnom zakonu s parametrima x ar= 90; a x \u003d 7,6, tj. u izrazu za gustoću normalne distribucije

Zamjenjujemo M[X] i a[X] njihovim procjenama i dobivamo

Kao vrijednosti x uzmemo granice intervala u našem grupiranom nizu, zamijenimo ih u formulu (6.70) i ​​dobijemo:

Dobiveni podaci su prikazani na slici 6.2 i dobivamo glatku krivulju.

Testirajmo sada hipotezu H o normalnom zakonu distribucije s gustoćom f(x). Hipoteza H o je suprotstavljena alternativnoj hipotezi H 1 koja kaže da se slučajna varijabla X ne pokorava normalnom zakonu s parametrima. x ar= 90; i x = 7,6.

Kako bismo zaključili jesu li podaci promatranja u skladu s hipotezom koju smo iznijeli, koristi se test dobrote prilagodbe. Kriterij prikladnosti je kriterij za testiranje hipoteze o zakonu distribucije. Koristi se za provjeru slaganja predloženog tipa zakona raspodjele s eksperimentalnim podacima.

Postoje različiti kriteriji pristanka: Pearson, Fisher, Kolmogorov itd.

Prilikom testiranja hipoteza mogu se napraviti dvije vrste pogrešaka. Pogreška prve vrste je da je točna nulta hipoteza H o odbačena; pogreška druge vrste – da je ispravna alternativna hipoteza odbačena

Vjerojatnost pogreške prve vrste (a) naziva se razina značajnosti kriterija. Što je a manje, to je manja vjerojatnost odbacivanja točne hipoteze H o Dopuštenom a obično se postavlja unaprijed. U pravilu se koriste standardne vrijednosti od \u003d 0,01; 0,05; 0,1.

Vjerojatnost greške druge vrste označena je sa str. Vrijednost (1 - p) - vjerojatnost izbjegavanja pogreške druge vrste (za prihvaćanje točne hipoteze i odbacivanje netočne hipoteze H 0) - naziva se snaga kriterija.

Prvo koristimo za testiranje hipoteze o normalna distribucija Pearsonov kriterij (x 2) - Dajemo kratak teorijske informacije. Pretpostavimo da je provedeno n eksperimenata u svakom od kojih je uzela slučajna varijabla X određena vrijednost, tj. x 1 x 2 ....., x k (do- broj mogućih vrijednosti

slučajna varijabla X). Kao rezultat dobivamo statističku seriju distribucije (tablica 6.6).

Tablica 6.6

gdje su odgovarajuće vjerojatnosti.

Vjerujemo da odstupanja / od R imaju slučajne uzroke. Kako bi se provjerila vjerodostojnost postavljene hipoteze, potrebno je odabrati neku mjeru neslaganja između statističke i teorijske distribucije.

Kada se koristi Pearsonov kriterij, zbroj kvadrata odstupanja (/. - R.), uzeti s nekim utezima OD ( , tj.

Upisuju se težine S., budući da se odstupanja odnose na različite vrijednosti R., ne mogu se smatrati jednakim po važnosti.

Pearson je dokazao da ako uzmemo

zatim na veliki brojevi eksperimenti P zakon raspodjele količine Ra ima sljedeća svojstva: praktički ne ovisi o zakonu distribucije slučajne varijable X, malo ovisi o broju eksperimenata n, ovisi samo o broju vrijednosti slučajne varijable X(k) i kod n -> oo se približava distribuciji x 2 Stoga je mjera diskrepancije u ovom slučaju označena % 2 , tj.

Upišite n ispod znaka zbroja, s obzirom na to, i nakon

transformacije koje dobivamo

Distribucija x 2 ovisi o parametru koji se naziva broj stupnjeva slobode (r s), koji je definiran na sljedeći način:

gdje Se-- iznos nezavisni uvjeti, koje su superponirane na relativne frekvencije. Za naš primjer Se= 3. Zahtijevali smo da budu zadovoljeni sljedeći uvjeti:

Za distribuciju % 2 sastavljene su tablice (vidi Dodatak 6). Za naš primjer, testirajmo hipotezu o normalnoj distribuciji koristeći Pearsonov test.

Vratimo se stolu. 6.5, gdje postoji jedan prazan stupac (R.) - to su teorijske vjerojatnosti pada u interval slučajne varijable X, koja ima normalnu distribuciju s parametrima x ar = 90; i x = 7,6.

Da bismo ih pronašli koristimo formulu (2.44). Dobivamo:

gdje je F o (x) normalizirana Laplaceova funkcija za koju su, kao što smo već rekli, sastavljene tablice (vidi Dodatak 5).

Dobivene vrijednosti vjerojatnosti unijet ćemo u tablicu. 6.5. Nadalje, prema formuli (6.74), dobivamo:

Broj stupnjeva slobode u našem slučaju je r, = 6 - 3 = 3. Razina značajnosti uzima se jednakom 0,1, tj. a = 0,1. Prema tablici raspodjele x 2 (vidi prilog 6), prema razini značajnosti a = 0,1 i prema broju stupnjeva slobode r = 3, nalazimo %m = 6,25.

Jer Xm > X R, tada hipoteza o normalnoj distribuciji nije u suprotnosti s podacima promatranja i može se prihvatiti s razinom značajnosti od 0,1. Ako pri ruci nema tablice distribucije x 2, za procjenu slučajnosti odstupanja /. iz R. možete koristiti kriterij Romanovskog

Ako je relacija (6.76) manja od tri, tada je razlika između stvarne i teorijske distribucije slučajna, inače je značajna.

Za primjer podatke imamo , pa se može prihvatiti i hipoteza o normalnoj distribuciji.

Sada primijenimo Kolmogorov test dobrote prilagodbe da testiramo hipotezu o normalnoj distribuciji.

Kolmogorov kriterij temelji se na pronalaženju najvećeg odstupanja između akumuliranih frekvencija ili relativnih frekvencija eksperimentalne distribucije i vjerojatnosti teorijske distribucije. Određuje se formulama:

ako koristimo akumulirane relativne frekvencije;

ako koristimo akumulirane frekvencije, gdje d M- najveća vrijednost odstupanja između akumuliranih relativnih učestalosti i vjerojatnosti;

D M- najveća razlika između stvarnih i teoretskih frekvencija.

Koristit ćemo formulu (6.77), a potrebne podatke smjestiti u tablicu. 6.8.

Iz tablice. 6.8 slijedi da, dakle, prema formuli

(6.75) dobivamo

Tablica 6.8

Nagomilano f i R

Zatim prema tablicama R()(vidi Dodatak 8) nalazimo P(X k)= 1. Prema tome, možemo pretpostaviti da su razlike između relativnih frekvencija i teoretskih vjerojatnosti slučajne prirode, te stoga hipoteza o normalnoj distribuciji nije u suprotnosti s podacima promatranja.

Zaključno, još jednom ponavljamo da je naš primjer edukativne prirode. Treba imati na umu da pri korištenju Pearsonovog kriterija broj opažanja treba biti najmanje nekoliko desetaka, svaka znamenka treba sadržavati najmanje pet opažanja, a broj znamenki treba biti približno 10-15.

Pitanja za samoispitivanje

  • 1. Koje se vrste prosjeka koriste u statistici?
  • 2. Kako se određuju harmonijska jednostavna i ponderirana sredina?
  • 3. Kako se određuju geometrijska jednostavna i težinska sredina?
  • 4. Kako se određuje jednostavna i težinska aritmetička sredina?
  • 5. Kako se izračunavaju RMS i RMS?
  • 6. Koje pokazatelje varijacije poznajete?
  • 7. Koji je raspon varijacije i srednje linearno odstupanje? Koje se formule koriste za njihov izračun?
  • 8. Što je varijanca i standardna devijacija? Koje se formule koriste za njihov izračun?
  • 9. Koja je formula za disperziju kvalitativnog svojstva?
  • 10. Što je koeficijent varijacije? Kakav je njegov značaj za ekonomsku analizu?
  • 11. Što je pravilo zbrajanja varijance?
  • 12. Što su asimetrija i kurtosis, i koje se formule koriste za njihovo pronalaženje?