Biografije Karakteristike Analiza

Granična greška uzorkovanja je jednaka. Selektivno posmatranje: koncept, vrste, greške uzorkovanja, evaluacija rezultata

Zovu se odstupanja između vrijednosti bilo kojeg indikatora utvrđenog statističkim posmatranjem i njegove stvarne veličine greške u posmatranju . U zavisnosti od uzroka nastanka, razlikuju se greške u registraciji i greške reprezentativnosti.

Greške u registraciji nastaju kao rezultat netačnog utvrđivanja činjenica ili pogrešnog snimanja u procesu posmatranja ili intervjua. One su nasumične ili sistematske. Slučajne greške u registraciji mogu napraviti i ispitanici u svojim odgovorima i registratori. Sistematske greške mogu biti i namjerne i nenamjerne. Namjerno – svjesno, tendenciozno iskrivljavanje stvarnog stanja stvari. Nenamjerne su uzrokovane raznim slučajnim razlozima (nepažnja, nepažnja).

Greške u reprezentativnosti (reprezentativnosti) nastaju kao rezultat nekompletnog istraživanja i ako anketna populacija ne reprodukuje u potpunosti opštu populaciju. One mogu biti nasumične ili sistematske. Greške slučajne reprezentativnosti su odstupanja do kojih dolazi tokom nekontinuiranog posmatranja zbog činjenice da skup odabranih jedinica posmatranja (uzorak) ne reproducira u potpunosti cjelokupnu populaciju u cjelini. Pristrasnosti u reprezentativnosti su odstupanja koja proizilaze iz kršenja principa slučajnog odabira jedinica. Greške u reprezentativnosti su organski svojstvene posmatranju uzorka i nastaju zbog činjenice da populacija uzorka ne reproducira u potpunosti opću populaciju. Nemoguće je izbjeći greške reprezentativnosti, međutim, korištenjem metoda teorije vjerojatnosti zasnovanih na korištenju graničnih teorema zakona velikih brojeva, ove greške se mogu svesti na minimalne vrijednosti, čije su granice postavljene s dovoljno visokom preciznošću.

Greške uzorkovanja - razlika između karakteristika uzorka i opšte populacije. Za prosječnu vrijednost, greška će biti određena formulom

gdje

Vrijednost
pozvao marginalna greška uzorci.

Granična greška uzorkovanja je slučajna vrijednost. Granične teoreme zakona velikih brojeva posvećene su proučavanju obrazaca slučajnih grešaka uzorkovanja. Ovi obrasci su najpotpunije otkriveni u teoremama P. L. Čebiševa i A. M. Ljapunova.

Teorema P. L. Čebiševa u odnosu na metodu koja se razmatra, može se formulisati na sledeći način: sa dovoljno velikim brojem nezavisnih posmatranja, moguće je sa verovatnoćom bliskom jedinici (tj. skoro sa sigurnošću) tvrditi da je odstupanje srednje vrednosti uzorka od opšti će biti proizvoljno mali. Teorema P. L. Čebiševa dokazuje da vrijednost greške ne smije biti veća . Zauzvrat, vrijednost , izražavajući standardnu ​​devijaciju srednje vrijednosti uzorka od opće srednje vrijednosti, ovisi o fluktuaciji osobine u općoj populaciji i broj odabranih jedinica n. Ova zavisnost se izražava formulom

, (7.2)

gdje također ovisi o metodi uzorkovanja.

vrijednost =pozvao prosječna greška uzorkovanja. U ovom izrazu je opšta varijansa, n je veličina uzorka.

Razmotrimo kako broj odabranih jedinica utiče na vrijednost prosječne greške n. Logički je lako provjeriti da kada se odabere veliki broj jedinica, odstupanja između srednjih vrijednosti će biti manja, odnosno postoji inverzna veza između prosječne greške uzorkovanja i broja odabranih jedinica. U ovom slučaju se ovdje ne formira samo inverzna matematička ovisnost, već takva ovisnost, koja pokazuje da je kvadrat neslaganja između srednjih vrijednosti obrnuto proporcionalan broju odabranih jedinica.

Povećanje varijabilnosti predznaka povlači povećanje standardne devijacije, a samim tim i greške. Ako pretpostavimo da će sve jedinice imati istu vrijednost karakteristike, tada će standardna devijacija postati nula i greška uzorkovanja će također nestati. Tada nema potrebe za primjenom uzorkovanja. Međutim, treba imati na umu da je veličina varijabilnosti osobine u općoj populaciji nepoznata, jer su nepoznate veličine jedinica u njoj. Moguće je izračunati samo varijabilnost osobine u populaciji uzorka. Odnos između varijansi opšte populacije i populacije uzorka izražava se formulom

Pošto vrednost za dovoljno velike n je blizu jedinice, možemo približno pretpostaviti da je varijansa uzorka jednaka opštoj varijansi, tj.

Dakle, prosječna greška uzorkovanja pokazuje kakva su moguća odstupanja karakteristika populacije uzorka od odgovarajućih karakteristika opće populacije. Međutim, veličina ove greške može se procijeniti sa određenom vjerovatnoćom. Množilac pokazuje vrijednost vjerovatnoće

Teorema A. M. Ljapunova . A. M. Lyapunov je dokazao da je raspodjela srednjih vrijednosti uzorka (dakle, njihova odstupanja od opće srednje vrijednosti) s dovoljno velikim brojem nezavisnih opažanja približno normalna, pod uvjetom da opća populacija ima konačnu srednju vrijednost i ograničenu varijansu.

Matematički Ljapunovljev teorem može se napisati ovako:

(7.3)

gdje
, (7.4)

gdje
je matematička konstanta;

marginalna greška uzorkovanja , što omogućava da se sazna u kojim granicama se nalazi vrijednost opšteg prosjeka.

Vrijednosti ovog integrala za različite vrijednosti koeficijenta pouzdanosti t izračunate i date u posebnim matematičkim tabelama. Posebno, kada:

Ukoliko t ukazuje na vjerovatnoću odstupanja
, tj. vjerovatnoću koliko će se opća srednja vrijednost razlikovati od srednje vrijednosti uzorka, onda se to može pročitati na sljedeći način: s vjerovatnoćom od 0,683 može se tvrditi da razlika između uzorka i opšte srednje vrijednosti ne prelazi jednu vrijednost srednje greške uzorkovanja. Drugim riječima, u 68,3% slučajeva greška reprezentativnosti neće ići dalje
Sa vjerovatnoćom od 0,954, može se tvrditi da greška reprezentativnosti ne prelazi
(tj. u 95% slučajeva). Sa vjerovatnoćom od 0,997, odnosno prilično blizu jedan, može se očekivati ​​da razlika između uzorka i opšte srednje vrijednosti neće premašiti tri puta srednju grešku uzorka, itd.

Logično, veza ovdje izgleda sasvim jasno: što su veće granice unutar kojih je moguća greška dopuštena, veća je vjerovatnoća da će se suditi o njenoj veličini.

Poznavanje srednje vrijednosti uzorka karakteristike
i marginalna greška uzorkovanja
, moguće je odrediti granice (granice) koje sadrže opći prosjek

1 . Samonasumično uzorkovanje - ova metoda je fokusirana na uzorkovanje jedinica iz opće populacije bez ikakve podjele na dijelove ili grupe. Istovremeno, da bi se ispoštovao osnovni princip uzorkovanja - jednaka mogućnost da sve jedinice opće populacije budu odabrane - koristi se šema slučajnog izdvajanja jedinica lutrijom (lutrijom) ili tabela slučajnih brojeva. Moguća je ponovljena i neponovljena selekcija jedinica

Srednja greška pravilnog slučajnog uzorka je standardna devijacija mogućih vrijednosti uzorka srednje vrijednosti od opće srednje vrijednosti. Prosječne greške uzorkovanja za metodu slučajnog odabira prikazane su u tabeli. 7.2.

Tabela 7.2

Prosječna greška uzorkovanja μ

Prilikom odabira

ponovljeno

neponavljajuća

Za srednje

U tabeli se koriste sljedeće oznake:

je varijansa uzorka;

- veličina uzorka;

- veličina opšte populacije;

je udio uzorka jedinica koje imaju osobinu koja se proučava;

- broj jedinica koje imaju proučavano svojstvo;

- veličina uzorka.

Za povećanje tačnosti umjesto množitelja uzmi množitelj
, ali sa velikim brojem N razlika između ovih izraza nije od praktične važnosti.

Granična greška pravilnog slučajnog uzorkovanja
izračunato po formuli

, (7.6)

gdje t – koeficijent pouzdanosti zavisi od vrednosti verovatnoće.

Primjer. Prilikom ispitivanja stotinu uzoraka nasumično odabranih proizvoda iz serije, pokazalo se da je 20 nestandardnih. Sa vjerovatnoćom od 0,954 odredite granice u kojima je udio nestandardnih proizvoda u seriji.

Odluka. Izračunajte ukupan udio ( R):
.

Udio nestandardnih proizvoda:
.

Granična greška frakcije uzorka sa vjerovatnoćom od 0,954 izračunava se po formuli (7.6) koristeći formulu u tabeli. 7.2 za dijeljenje:

Sa vjerovatnoćom od 0,954, može se tvrditi da je udio nestandardnih proizvoda u seriji robe unutar 12% ≤ P≤ 28 %.

U praksi projektovanja opservacije uzorka postoji potreba za određivanjem veličine uzorka, što je neophodno da bi se obezbedila određena tačnost u proračunu opštih proseka. U ovom slučaju su date granična greška uzorkovanja i njena vjerovatnoća. Iz formule
i formule za srednje greške uzorkovanja, utvrđuje se potrebna veličina uzorka. Formule za određivanje veličine uzorka ( n) zavisi od metode odabira. Proračun veličine uzorka za stvarni slučajni uzorak dat je u tabeli. 7.3.

Tabela 7.3

Predviđeni odabir

za sredinu

Ponovljeno

neponavljanje

2 . Mehaničko uzorkovanje - ovom metodom polaze od uzimanja u obzir nekih karakteristika lokacije objekata u opštoj populaciji, njihovog redoslijeda (prema popisu, broju, abecedi). Mehaničko uzorkovanje se vrši odabirom pojedinačnih objekata opšte populacije u određenom intervalu (svakog 10. ili 20.). Interval se računa u odnosu na , gdje n- veličina uzorka, N- veličina opšte populacije. Dakle, ako iz populacije od 500.000 jedinica treba dobiti uzorak od 2%, tj. odabrati 10.000 jedinica, tada će proporcija selekcije biti
Odabir jedinica se vrši u skladu sa utvrđenom proporcijom u redovnim intervalima. Ako je lokacija objekata u općoj populaciji nasumična, onda je mehaničko uzorkovanje po sadržaju slično slučajnom odabiru. U mehaničkom odabiru koristi se samo neponovljivo uzorkovanje.

Prosječna greška i veličina uzorka u mehaničkom odabiru izračunavaju se prema formulama pravilnog slučajnog uzorkovanja (vidi tabele 7.2 i 7.3).

3 . Tipičan uzorak , pri čemu je opšta populacija podeljena prema nekim bitnim karakteristikama u tipične grupe; izbor jedinica se vrši iz tipičnih grupa. Ovom metodom selekcije opšta populacija se deli na grupe koje su po nekim aspektima homogene, koje imaju svoje karakteristike, a pitanje se svodi na određivanje veličine uzoraka iz svake grupe. Možda uniformno uzorkovanje - ovom metodom se iz svake tipične grupe bira isti broj jedinica
Takav pristup je opravdan samo ako su veličine početnih tipičnih grupa jednake. U tipičnoj selekciji, nesrazmjernoj veličini grupa, ukupan broj odabranih jedinica dijeli se sa brojem tipičnih grupa, a rezultirajuća vrijednost daje broj odabira iz svake tipične grupe.

Napredniji oblik selekcije je proporcionalno uzorkovanje . Takva šema uzorkovanja naziva se proporcionalnom kada je broj uzoraka uzetih iz svake tipične grupe u općoj populaciji proporcionalan brojevima, disperzijama (ili kombinovanim i brojevima i disperzijama). Uvjetno određujemo veličinu uzorka od 100 jedinica i biramo jedinice iz grupa:

proporcionalno veličini njihove opće populacije (Tabela 7.4). U tabeli je navedeno:

N i je veličina tipične grupe;

d j– podijeliti ( N ja / N);

N- veličina opšte populacije;

n i– izračunava se veličina uzorka iz tipične grupe:

, (7.7)

n je veličina uzorka iz opće populacije.

Tabela 7.4

N i

d j

n i

proporcionalno standardnoj devijaciji (Tabela 7.5).

ovdje  i– standardna devijacija tipičnih grupa;

n i – veličina uzorka iz tipične grupe se izračunava po formuli

(7.8)

Tabela 7.5

N i

n i

kombinovano (Tabela 7.6).

Veličina uzorka se izračunava po formuli

. (7.9)

Tabela 7.6

i N i

Prilikom provođenja tipičnog uzorka, direktna selekcija iz svake grupe se vrši slučajnim odabirom.

Prosječne greške uzorkovanja izračunate su korištenjem formula u tabeli. 7.7 u zavisnosti od načina odabira iz tipičnih grupa.

Tabela 7.7

Metoda odabira

Ponovljeno

neponavljanje

za sredinu

za dionicu

za sredinu

za dionicu

Nesrazmjerno veličini grupe

Proporcionalno veličini grupe

Proporcionalna fluktuacija u grupama (najkorisnija je)

ovdje
je prosjek unutargrupnih varijansi tipičnih grupa;

je udio jedinica koje imaju osobinu koja se proučava;

je prosjek varijansi unutar grupe za udio;

je standardna devijacija u uzorku od i-ta tipična grupa;

je veličina uzorka iz tipične grupe;

je ukupna veličina uzorka;

je volumen tipične grupe;

- obim opšte populacije.

Veličina uzorka iz svake tipične grupe treba da bude proporcionalna standardnoj devijaciji u toj grupi.
.Izračun broja
proizveden prema formulama datim u tabeli. 7.8.

Tabela 7.8

4 . serijsko uzorkovanje - korisno u slučajevima kada su jedinice stanovništva grupisane u male grupe ili serije. Uz serijski uzorak, populacija se dijeli na grupe iste veličine - serije. Serije su odabrane u skupu uzoraka. Suština serijskog uzorkovanja leži u slučajnom ili mehaničkom odabiru serija, unutar kojih se vrši kontinuirano ispitivanje jedinica. Prosječna greška serijskog uzorka sa jednakim serijama zavisi samo od vrijednosti međugrupne varijanse. Prosječne greške su sažete u tabeli. 7.9.

Tabela 7.9

Metoda odabira serije

za sredinu

za dionicu

Ponovljeno

neponavljanje

Evo R je broj serija u općoj populaciji;

r– broj odabranih serija;

– međuserijalna (međugrupna) varijansa srednjih vrednosti;

– međuserijalna (međugrupna) varijansa udjela.

Kod serijske selekcije, potreban broj odabranih serija se određuje na isti način kao i kod odgovarajuće metode slučajnog odabira.

Proračun broja serijskih uzoraka vrši se prema formulama datim u tabeli. 7.10.

Tabela 7.10

Primjer. U mašinskoj radionici pogona radi 100 radnika u deset ekipa. U cilju proučavanja kvalifikacija radnika napravljen je 20% serijski neponovljeni uzorak koji je uključivao dva tima. Dobijena je sljedeća distribucija anketiranih radnika po kategorijama:

Činovi radnika u brigadi 1

Činovi radnika u brigadi 2

Činovi radnika u brigadi 1

Činovi radnika u brigadi 2

Potrebno je sa vjerovatnoćom od 0,997 odrediti granice u kojima se nalazi prosječna kategorija radnika mašinske radionice.

Odluka. Uzorak srednjih vrijednosti za timove i ukupnu sredinu definiramo kao ponderirani prosjek grupe:

Odredimo međuserijsku disperziju formulama (5.25):

Izračunavamo prosječnu grešku uzorkovanja koristeći formulu u tabeli. 7.9:

Izračunajmo graničnu grešku uzorkovanja s vjerovatnoćom od 0,997:

Sa vjerovatnoćom od 0,997, može se tvrditi da je prosječan rang radnika u mašinskoj radionici unutar

Prosječna greška uzorkovanja pokazuje koliko parametar populacije uzorka u prosjeku odstupa od odgovarajućeg parametra opšte populacije. Ako izračunamo prosjek grešaka svih mogućih uzoraka određene vrste date zapremine ( n) izdvojene iz iste opće populacije, onda dobijamo njihovu generalizirajuću karakteristiku - srednja greška uzorkovanja ().

U teoriji selektivnog posmatranja izvedene su formule za određivanje , koje su individualne za različite metode selekcije (ponovljene i neponovljene), vrste korištenih uzoraka i vrste procijenjenih statističkih indikatora.

Na primjer, ako se koristi ponovljeno nasumično uzorkovanje, onda se ono definira kao:

Prilikom procjene srednje vrijednosti karakteristike;

Ako je znak alternativni, a udio se procjenjuje.

U slučaju neponovljenog slučajnog odabira, formule se mijenjaju (1 - n/N):

- za srednju vrijednost atributa;

- za dionicu.

Vjerovatnoća dobijanja upravo takve vrijednosti greške uvijek je jednaka 0,683. U praksi je poželjno dobiti podatke sa većom vjerovatnoćom, ali to dovodi do povećanja veličine greške uzorkovanja.

Granična greška uzorkovanja () jednaka je t puta broju prosječnih grešaka uzorkovanja (u teoriji uzorkovanja uobičajeno je koeficijent t nazvati koeficijentom povjerenja):

Ako se greška uzorkovanja udvostruči (t = 2), onda dobijamo mnogo veću vjerovatnoću da neće preći određenu granicu (u našem slučaju dvostruku prosječnu grešku) - 0,954. Ako uzmemo t = 3, tada će nivo pouzdanosti biti 0,997 - praktički sigurnost.

Nivo marginalne greške uzorkovanja ovisi o sljedećim faktorima:

  • stepen varijacije jedinica opšte populacije;
  • veličina uzorka;
  • odabrane šeme selekcije (neponovljiva selekcija daje manju vrijednost greške);
  • nivo samopouzdanja.

Ako je veličina uzorka veća od 30, tada se vrijednost t određuje iz tabele normalne distribucije, ako je manja - iz Studentove tabele distribucije.

Evo nekih vrijednosti koeficijenta pouzdanosti iz tablice normalne distribucije.

Interval pouzdanosti za srednju vrijednost atributa i za udio u općoj populaciji postavljen je na sljedeći način:

Dakle, definicija granica opšteg prosjeka i udjela sastoji se od sljedećih koraka:

Greške uzorkovanja za različite vrste selekcije

  1. Zapravo nasumično i mehaničko uzorkovanje. Prosječna greška stvarnog slučajnog i mehaničkog uzorkovanja nalazi se korištenjem formula prikazanih u tabeli. 11.3.

Primjer 11.2. Za proučavanje nivoa prinosa na sredstva sprovedena je anketa uzorka 90 preduzeća od 225 metodom slučajnog ponovnog uzorkovanja, na osnovu čega su dobijeni podaci prikazani u tabeli.

U ovom primjeru imamo uzorak od 40% (90:225 = 0,4 ili 40%). Odredimo njegovu marginalnu grešku i granice za prosječnu vrijednost osobine u opštoj populaciji koracima algoritma:

  1. Na osnovu rezultata ankete uzorka izračunavamo srednju vrijednost i varijansu u populaciji uzorka:
Tabela 11.5.
Rezultati posmatranja Procijenjene vrijednosti
povrat na sredstva, rub., x i broj preduzeća, f i sredina intervala, x i \xb4 x i \xb4 f i x i \xb4 2 f i
Do 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 i novije 14 2,3 32,2 74,06
Ukupno 90 - 162,6 303,62

Uzorak srednji

Varijanca uzorka ispitivane osobine

Za naše podatke definiramo marginalnu grešku uzorkovanja, na primjer, sa vjerovatnoćom od 0,954. Prema tabeli vrijednosti vjerovatnoće funkcije normalne distribucije (pogledajte izvod iz nje dat u Dodatku 1), nalazimo vrijednost koeficijenta pouzdanosti t koja odgovara vjerovatnoći od 0,954. Sa vjerovatnoćom od 0,954, koeficijent t je 2.

Dakle, u 954 slučaja od 1000, prosječni povrat na imovinu neće premašiti 1,88 rubalja. i ne manje od 1,74 rubalja.

Iznad je korištena ponovljena shema slučajnog odabira. Pogledajmo da li se rezultati ankete mijenjaju ako pretpostavimo da je selekcija obavljena prema šemi selekcije bez ponavljanja. U ovom slučaju, prosječna greška se izračunava pomoću formule

Tada će, s vjerovatnoćom jednakom 0,954, granična greška uzorkovanja biti:

Granice pouzdanosti za srednju vrijednost karakteristike u slučaju nerepetitivnog slučajnog odabira imat će sljedeće vrijednosti:

Upoređujući rezultate dvije šeme selekcije, možemo zaključiti da korištenje nerepetitivnog slučajnog uzorkovanja daje tačnije rezultate u odnosu na korištenje ponovljenog odabira sa istim nivoom povjerenja. Istovremeno, što je veća veličina uzorka, to su granice srednjih vrijednosti značajnije suže kada se prelazi s jedne šeme selekcije na drugu.

Prema primjeru, određujemo granice udjela preduzeća s povratom na imovinu koja ne prelazi 2,0 rublje u općoj populaciji:

  1. Izračunajmo stopu uzorkovanja.

Broj preduzeća u uzorku sa povratom na sredstva ne većim od 2,0 rublje je 60 jedinica. Onda

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. izračunati varijansu udjela u populaciji uzorka
  1. prosječna greška uzorkovanja kada se koristi šema ponovljenog odabira će biti

Ako pretpostavimo da je korištena shema selekcije koja se ne ponavlja, tada će prosječna greška uzorkovanja, uzimajući u obzir korekciju za konačnost populacije, biti

  1. postavljamo vjerovatnoću povjerenja i određujemo graničnu grešku uzorkovanja.

Sa vrijednošću vjerovatnoće od P = 0,997, prema tabeli normalne distribucije, dobijamo vrijednost za koeficijent pouzdanosti t = 3 (pogledajte izvod iz njega dat u Dodatku 1):

Dakle, sa vjerovatnoćom od 0,997, može se tvrditi da u opštoj populaciji udio preduzeća sa prinosom na sredstva koja ne prelazi 2,0 rublje nije manji od 54,7% i ne veći od 78,7%.

  1. Tipičan uzorak. Sa tipičnim uzorkom, opšta populacija objekata se deli na k grupa

N 1 + N 2 + ... + N i + ... + N k = N.

Obim jedinica izdvojenih iz svake tipične grupe zavisi od usvojene metode selekcije; njihov ukupan broj čini potrebnu veličinu uzorka

n 1 + n 2 + … + n i + … + n k = n.

Postoje sljedeća dva načina organiziranja selekcije unutar tipične grupe: proporcionalno obimu tipičnih grupa i proporcionalno stupnju fluktuacije vrijednosti atributa u jedinicama posmatranja u grupama. Razmotrite prvu od njih, kao najčešće korištenu.

Odabir, proporcionalan veličini tipičnih grupa, pretpostavlja da će u svakoj od njih biti odabran sljedeći broj populacijskih jedinica:

n = n i N i /N

gdje je n i broj jedinica koje se mogu izdvojiti za uzorak iz i-te tipične grupe;

n je ukupna veličina uzorka;

N i - broj jedinica opšte populacije koje su činile i-tu tipičnu grupu;

N je ukupan broj jedinica u općoj populaciji.

Odabir jedinica unutar grupa odvija se u obliku slučajnog ili mehaničkog uzorkovanja.

Formule za procjenu srednje greške uzorkovanja za srednju vrijednost i udio prikazane su u tabeli. 11.6.

Ovdje je prosjek grupnih varijansi tipičnih grupa.

Primjer 11.3. Uzorak anketiranja studenata sproveden je na jednom od moskovskih univerziteta kako bi se utvrdio indikator prosječnog pohađanja univerzitetske biblioteke od strane jednog studenta po semestru. Za to je korišten 5% neponovljeni tipični uzorak, čije tipične grupe odgovaraju broju kursa. Pri odabiru, proporcionalno obimu tipičnih grupa, dobijeni su sljedeći podaci:

Tabela 11.7.
Broj kursa Ukupno studenata, osoba, N i Ispitano kao rezultat selektivnog posmatranja, ljudi, n i Prosječan broj posjeta biblioteci po studentu po semestru, x i Varijanca unutargrupnog uzorka,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Ukupno 2 550 128 8 -

Broj polaznika koji se ispituju na svakom predmetu izračunava se na sljedeći način:

slično za druge grupe:

n 2 \u003d 31 (ljudi);

n 3 \u003d 29 (ljudi);

Raspodjela vrijednosti uzorka uvijek ima normalan zakon raspodjele (ili mu se približava) za n > 100, bez obzira na prirodu distribucije opće populacije. Međutim, u slučaju malih uzoraka, primjenjuje se drugačiji zakon raspodjele – Studentova raspodjela. U ovom slučaju, koeficijent pouzdanosti se nalazi prema Studentovoj tabeli t-distribucije, u zavisnosti od vrijednosti vjerovatnoće pouzdanosti P i veličine uzorka n. Dodatak 1 daje fragment Studentove tabele t-distribucije, predstavljen kao zavisnost vjerovatnoće povjerenja na veličinu uzorka i koeficijenta povjerenja t.

Primjer 11.4. Pretpostavimo da je uzorkovana anketa osam studenata akademije pokazala da su potrošili sljedeći broj sati pripremajući se za test iz statistike: 8,5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

Procijenimo prosječno utrošeno vrijeme uzorka i izgradimo interval povjerenja za prosječnu vrijednost atributa u opštoj populaciji, uzimajući vjerovatnoću povjerenja jednaku 0,95.

Odnosno, sa vjerovatnoćom od 0,95, može se tvrditi da je vrijeme koje student potroši na pripremu za test u rasponu od 6,9 do 8,5 sati.

11.2.2. Određivanje veličine uzorka

Prije direktnog uzorkovanja uvijek se postavlja pitanje koliko jedinica populacije koja se proučava treba odabrati za istraživanje. Formule za određivanje veličine uzorka izvedene su iz formula za granične greške uzorkovanja u skladu sa sljedećim pretpostavkama (tabela 11.7):

  1. vrstu predviđenog uzorka;
  2. metoda odabira (ponovljena ili neponovljena);
  3. izbor procijenjenog parametra (prosječna vrijednost obilježja ili udjela).

Osim toga, potrebno je unaprijed odrediti vrijednost razine povjerenja koja odgovara potrošaču informacije, te veličinu dopuštene granične greške uzorkovanja.

Napomena: kada koristite formule date u tabeli, preporučuje se da se rezultujuća veličina uzorka zaokruži naviše kako bi se obezbedila određena granica tačnosti.

Primjer 11.5. Izračunajmo koliko od 507 industrijskih preduzeća treba da proveri poreska inspekcija da bi se utvrdio udeo preduzeća sa poreskim prekršajima sa verovatnoćom od 0,997. Prema prethodnom sličnom istraživanju, vrijednost standardne devijacije iznosila je 0,15; očekuje se da veličina greške uzorkovanja ne bude veća od 0,05.

Kada koristite ponovljeno nasumično uzorkovanje, provjerite

Kod slučajnog odabira koji se ne ponavlja, bit će potrebno provjeriti

Kao što vidite, upotreba nerepetitivnog uzorkovanja nam omogućava da ispitamo mnogo manji broj objekata.

Primjer 11.6. Planirano je da se sprovede istraživanje zarada u preduzećima industrije metodom slučajnog i nerepetitivnog odabira. Kolika bi trebala biti veličina uzorka ako je u vrijeme istraživanja broj zaposlenih u industriji bio 100.000 ljudi? Granična greška uzorkovanja ne bi trebala prelaziti 100 rubalja. sa vjerovatnoćom od 0,954. Na osnovu rezultata prethodnih istraživanja plata u industriji, poznato je da je standardna devijacija 500 rubalja.

Stoga je za rješavanje problema potrebno u uzorak uključiti najmanje 100 ljudi.

Populacija- skup jedinica koje imaju masovni karakter, tipičnost, kvalitativnu uniformnost i prisustvo varijacija.

Statistička populacija se sastoji od materijalno postojećih objekata (Zaposleni, preduzeća, države, regioni), je objekat.

Jedinica stanovništva- svaka pojedinačna jedinica statističke populacije.

Ista statistička populacija može biti homogena u jednoj osobini i heterogena u drugoj.

Kvalitativna uniformnost- sličnost svih jedinica stanovništva po bilo kojoj osobini i različitost za sve ostale.

U statističkoj populaciji, razlike između jedne i druge jedinice populacije su češće kvantitativne prirode. Kvantitativne promjene vrijednosti atributa različitih jedinica populacije nazivaju se varijacijom.

Varijacija karakteristika- kvantitativna promjena predznaka (za kvantitativni predznak) prilikom prelaska iz jedne jedinice stanovništva u drugu.

sign- ovo je svojstvo, karakteristično svojstvo ili drugo svojstvo jedinica, predmeta i pojava koje se mogu promatrati ili mjeriti. Znakovi se dijele na kvantitativne i kvalitativne. Raznovrsnost i varijabilnost vrijednosti nekog obilježja u pojedinim jedinicama populacije naziva se varijacija.

Atributivne (kvalitativne) karakteristike se ne mogu kvantificirati (sastav stanovništva prema spolu). Kvantitativne karakteristike imaju numerički izraz (sastav stanovništva prema starosti).

Indikator- ovo je generalizirajuća kvantitativno kvalitativna karakteristika bilo kojeg svojstva jedinica ili skupa kao cjeline u specifičnim uslovima vremena i mjesta.

Scorecard je skup indikatora koji sveobuhvatno odražavaju fenomen koji se proučava.

Na primjer, uzmite u obzir platu:
  • Znak - plate
  • Statistička populacija - svi zaposleni
  • Jedinica stanovništva je svaki radnik
  • Kvalitativna homogenost - obračunata plata
  • Varijacija karakteristika - niz brojeva

Opšta populacija i uzorak iz nje

Osnova je skup podataka dobijenih kao rezultat mjerenja jedne ili više karakteristika. Stvarno posmatrani skup objekata, statistički predstavljen nizom posmatranja slučajne varijable, je uzorkovanje, a hipotetički postojeće (promišljeno) - opšta populacija. Opšta populacija može biti konačna (broj opažanja N = konst) ili beskonačno ( N = ∞), a uzorak iz opće populacije uvijek je rezultat ograničenog broja opservacija. Naziva se broj zapažanja koji čine uzorak veličina uzorka. Ako je veličina uzorka dovoljno velika n→∞) uzorak se razmatra veliko, inače se naziva uzorak ograničen volumen. Uzorak se razmatra mala, ako, prilikom mjerenja jednodimenzionalne slučajne varijable, veličina uzorka ne prelazi 30 ( n<= 30 ), a pri istovremenom mjerenju nekoliko ( k) karakteristike u višedimenzionalnom odnosu prostora n to k manje od 10 (n/k< 10) . Uzorak obrazaca varijantne serije ako su njeni članovi statistika narudžbi, tj. uzorke vrijednosti slučajne varijable X sortiraju se u rastućem redoslijedu (rangiraju), pozivaju se vrijednosti atributa opcije.

Primjer. Gotovo isti nasumično odabrani skup objekata - komercijalne banke jednog administrativnog okruga Moskve, može se smatrati uzorkom iz opšte populacije svih komercijalnih banaka u ovom okrugu, i kao uzorkom iz opšte populacije svih komercijalnih banaka u Moskvi. , kao i uzorak komercijalnih banaka u zemlji i dr.

Osnovne metode uzorkovanja

Od toga zavisi pouzdanost statističkih zaključaka i smislena interpretacija rezultata reprezentativnost uzorci, tj. potpunost i adekvatnost prikaza svojstava opšte populacije, u odnosu na koju se ovaj uzorak može smatrati reprezentativnim. Proučavanje statističkih svojstava populacije može se organizirati na dva načina: korištenjem kontinuirano i diskontinuirano. Kontinuirano posmatranje uključuje ispitivanje svih jedinice studirao agregati, a nekontinuirano (selektivno) posmatranje- samo delovi toga.

Postoji pet glavnih načina za organizovanje uzorkovanja:

1. jednostavan slučajni odabir, u kojem se objekti nasumično izdvajaju iz opće populacije objekata (na primjer, pomoću tablice ili generatora slučajnih brojeva), a svaki od mogućih uzoraka ima jednaku vjerovatnoću. Takvi uzorci se nazivaju zapravo nasumično;

2. jednostavan odabir kroz redovnu proceduru se izvodi pomoću mehaničke komponente (npr. datumi, dani u nedelji, brojevi stanova, slova abecede itd.) i tako dobijeni uzorci se nazivaju mehanički;

3. slojevito selekcija se sastoji u tome da se opšta populacija zapremine deli na podskupove ili slojeve (stratue) zapremine tako da . Stratumi su homogeni objekti u smislu statističkih karakteristika (na primjer, stanovništvo je podijeljeno na slojeve prema starosnoj grupi ili društvenoj klasi; preduzeća prema djelatnostima). U ovom slučaju, uzorci se pozivaju slojevito(inače, slojevit, tipičan, zoniran);

4. metode serijski selekcije se koriste za formiranje serijski ili ugniježđeni uzorci. Pogodni su ako je potrebno pregledati "blok" ili niz objekata odjednom (na primjer, pošiljka robe, proizvodi određene serije ili stanovništvo u teritorijalno-administrativnoj podjeli zemlje). Odabir serija može se izvršiti na slučajan ili mehanički način. Istovremeno se vrši kontinuirani pregled određene serije robe, odnosno cijele teritorijalne jedinice (stambene zgrade ili kvarta);

5. kombinovano(stepena) selekcija može kombinovati nekoliko metoda selekcije odjednom (na primjer, stratificirana i nasumična ili nasumična i mehanička); takav uzorak se zove kombinovano.

Vrste odabira

By um postoje individualni, grupni i kombinovani odabir. At individualni odabir pojedinačne jedinice opšte populacije se biraju u skupu uzoraka, sa grupni izbor su kvalitativno homogene grupe (serije) jedinica, i kombinovani izbor uključuje kombinaciju prvog i drugog tipa.

By metoda izbor razlikovati ponavljaju se i ne ponavljaju uzorak.

Neponovljivo naziva se selekcija, u kojoj se jedinica koja je pala u uzorak ne vraća u prvobitnu populaciju i ne učestvuje u daljoj selekciji; dok je broj jedinica opšte populacije N smanjen tokom procesa selekcije. At ponovljeno izbor uhvaćen u uzorku se jedinica nakon registracije vraća u opštu populaciju i tako zadržava jednaku mogućnost, zajedno sa ostalim jedinicama, da se koristi u daljem postupku selekcije; dok je broj jedinica opšte populacije N ostaje nepromijenjena (metoda se rijetko koristi u socio-ekonomskim studijama). Međutim, sa velikim N (N → ∞) formule za neponovljeno izbor je blizak onima za ponovljeno selekcija i potonje se koriste gotovo češće ( N = konst).

Glavne karakteristike parametara opće populacije i populacije uzorka

Osnova statističkih zaključaka studije je distribucija slučajne varijable, dok su posmatrane vrijednosti (x 1, x 2, ..., x n) se nazivaju realizacije slučajne varijable X(n je veličina uzorka). Distribucija slučajne varijable u opštoj populaciji je teoretska, idealna je po prirodi, a njen analogni uzorak je empirijski distribucija. Neke teorijske distribucije su date analitički, tj. njima opcije odrediti vrijednost funkcije distribucije u svakoj tački u prostoru mogućih vrijednosti slučajne varijable. Stoga je za uzorak teško, a ponekad i nemoguće odrediti funkciju distribucije opcije se procjenjuju iz empirijskih podataka, a zatim se zamjenjuju u analitički izraz koji opisuje teorijsku distribuciju. U ovom slučaju, pretpostavka (ili hipoteza) o vrsti distribucije može biti i statistički tačna i pogrešna. Ali u svakom slučaju, empirijska raspodjela rekonstruirana iz uzorka samo grubo karakterizira pravu. Najvažniji parametri distribucije su očekivana vrijednost i disperzija.

Po svojoj prirodi, distribucije jesu kontinuirano i diskretno. Najpoznatija kontinuirana distribucija je normalno. Selektivni analozi parametara i za njih su: srednja vrijednost i empirijska varijansa. Među diskretnim u socio-ekonomskim studijama, najčešće se koriste alternativa (dihotomno) distribucija. Parametar očekivanja ove distribucije izražava relativnu vrijednost (ili dijeliti) jedinice stanovništva koje imaju ispitivanu karakteristiku (označava se slovom ); udio stanovništva koji nema ovu osobinu označava se slovom q (q = 1 - p). Varijanca alternativne distribucije također ima empirijski analog.

U zavisnosti od vrste distribucije i načina odabira jedinica stanovništva, karakteristike parametara distribucije se različito izračunavaju. Glavne za teorijske i empirijske distribucije date su u tabeli. jedan.

Udio uzorka k n je omjer broja jedinica populacije uzorka i broja jedinica opće populacije:

k n = n/N.

Udio uzorka w je omjer jedinica koje imaju osobinu koja se proučava x na veličinu uzorka n:

w = n n / n.

Primjer. U seriji robe koja sadrži 1000 jedinica, sa 5% uzorka frakcija uzorka k n u apsolutnoj vrijednosti je 50 jedinica. (n = N*0,05); ako se u ovom uzorku pronađu 2 neispravna proizvoda frakcija uzorka w biće 0,04 (w = 2/50 = 0,04 ili 4%).

Pošto se populacija uzorka razlikuje od opšte populacije, postoje greške uzorkovanja.

Tabela 1. Glavni parametri opće populacije i populacije uzorka

Greške uzorkovanja

Kod bilo koje (solidne i selektivne) greške mogu se pojaviti dvije vrste: registracija i reprezentativnost. Greške registracija može imati nasumično i sistematično karakter. Slučajno greške su sastavljene od mnogo različitih nekontrolisanih uzroka, nenamjerne su prirode i obično se međusobno uravnotežuju u kombinaciji (na primjer, promjene očitavanja instrumenta zbog temperaturnih fluktuacija u prostoriji).

Sistematično greške su pristrasne, jer krše pravila za odabir objekata u uzorku (na primjer, odstupanja u mjerenjima pri promjeni postavki mjernog uređaja).

Primjer. Za procjenu socijalnog statusa stanovništva u gradu planirano je ispitivanje 25% porodica. Ako se, međutim, odabir svakog četvrtog stana zasniva na njegovom broju, onda postoji opasnost od odabira svih stanova samo jedne vrste (npr. jednosobni stanovi), što će unijeti sistematsku grešku i iskriviti rezultate; izbor broja stana po ždrijebu je poželjniji, jer će greška biti slučajna.

Greške u reprezentativnosti svojstvene samo selektivnom posmatranju, ne mogu se izbjeći i nastaju kao rezultat činjenice da uzorak ne reproducira u potpunosti opći. Vrijednosti indikatora dobijenih iz uzorka razlikuju se od indikatora istih vrijednosti u opštoj populaciji (ili dobijenih tokom kontinuiranog posmatranja).

Greška uzorkovanja je razlika između vrijednosti parametra u općoj populaciji i vrijednosti uzorka. Za prosječnu vrijednost kvantitativnog atributa, ona je jednaka: , a za udio (alternativni atribut) - .

Greške uzorkovanja su svojstvene samo opažanjima uzorka. Što su ove greške veće, to se empirijska distribucija više razlikuje od teorijske. Parametri empirijske distribucije su slučajne varijable, stoga su greške uzorkovanja također slučajne varijable, mogu uzeti različite vrijednosti za različite uzorke, pa je uobičajeno izračunati prosečna greška.

Prosječna greška uzorkovanja je vrijednost koja izražava standardnu ​​devijaciju srednje vrijednosti uzorka od matematičkog očekivanja. Ova vrijednost, podložna principu slučajnog odabira, prvenstveno zavisi od veličine uzorka i od stepena varijacije osobine: što je veća i manja varijacija osobine (dakle, vrijednost ), to je manja vrijednost prosječna greška uzorkovanja. Odnos između varijansi opšte populacije i populacije uzorka izražava se formulom:

one. za dovoljno velike, možemo pretpostaviti da . Prosječna greška uzorkovanja pokazuje moguća odstupanja parametra populacije uzorka od parametra opšte populacije. U tabeli. 2 prikazani su izrazi za izračunavanje prosječne greške uzorkovanja za različite metode organizacije posmatranja.

Tabela 2. Srednja greška (m) srednje vrijednosti uzorka i proporcija za različite tipove uzorka

Gdje je prosjek varijansi unutargrupnog uzorka za kontinuirano obilježje;

Prosjek unutargrupnih disperzija udjela;

— broj odabranih serija, — ukupan broj serija;

,

gdje je prosjek th serije;

- opšti prosjek za cijeli uzorak za kontinuirano obilježje;

,

gdje je udio osobine u th seriji;

— ukupan udio osobine u cijelom uzorku.

Međutim, o veličini prosječne greške može se suditi samo sa određenom vjerovatnoćom R (R ≤ 1). Lyapunov A.M. dokazali da se raspodjela srednjih vrijednosti uzorka, a time i njihova odstupanja od opšte srednje vrijednosti, sa dovoljno velikim brojem, približno pridržavaju normalnog zakona raspodjele, pod uvjetom da opća populacija ima konačnu srednju vrijednost i ograničenu varijansu.

Matematički, ova izjava za srednju vrijednost se izražava kao:

a za razlomak, izraz (1) će poprimiti oblik:

gdje - tu je marginalna greška uzorkovanja, što je višekratnik prosječne greške uzorkovanja , a faktor višestrukosti je Studentov kriterijum („faktor povjerenja“), koji je predložio W.S. Gosset (pseudonim "Student"); vrijednosti za različite veličine uzoraka pohranjuju se u posebnu tablicu.

Vrijednosti funkcije F(t) za neke vrijednosti t su:

Stoga se izraz (3) može pročitati na sljedeći način: sa vjerovatnoćom P = 0,683 (68,3%) može se tvrditi da razlika između uzorka i opšte srednje vrednosti neće preći jednu vrednost srednje greške m(t=1), sa vjerovatnoćom P = 0,954 (95,4%)— da ne prelazi vrijednost dvije srednje greške m (t = 2) , sa vjerovatnoćom P = 0,997 (99,7%)- neće prelaziti tri vrijednosti m (t = 3) . Dakle, vjerovatnoća da će ova razlika prijeći tri puta vrijednost srednje greške određuje nivo greške i nije više od 0,3% .

U tabeli. 3 prikazuje formule za izračunavanje granične greške uzorkovanja.

Tabela 3. Granična greška uzorkovanja (D) za srednju vrijednost i proporciju (p) za različite vrste promatranja uzorka

Proširivanje rezultata uzorka na populaciju

Krajnji cilj posmatranja uzorka je karakterizacija opće populacije. Za male veličine uzorka, empirijske procjene parametara ( i ) mogu značajno odstupati od njihovih pravih vrijednosti ( i ). Stoga postaje neophodno uspostaviti granice unutar kojih leže prave vrijednosti ( i ) za vrijednosti uzorka parametara ( i ).

Interval povjerenja nekog parametra θ opće populacije naziva se slučajni raspon vrijednosti ovog parametra, koji je s vjerovatnoćom bliskom 1 ( pouzdanost) sadrži pravu vrijednost ovog parametra.

marginalna greška uzorci Δ omogućava vam da odredite granične vrijednosti karakteristika opće populacije i njihovih intervali povjerenja, koji su jednaki:

Zaključak interval povjerenja dobijeno oduzimanjem marginalna greška iz uzorka srednje vrijednosti (udio), a gornje dodavanjem.

Interval povjerenja za srednju vrijednost koristi graničnu grešku uzorkovanja i za dati nivo povjerenja određuje se formulom:

To znači da sa datom vjerovatnoćom R, koji se naziva nivoom pouzdanosti i jedinstveno je određen vrijednošću t, može se tvrditi da prava vrijednost srednje vrijednosti leži u rasponu od , a prava vrijednost udjela je u rasponu od

Prilikom izračunavanja intervala povjerenja za tri standardna nivoa povjerenja P=95%, P=99% i P=99,9% vrijednost odabire . Primjene ovisno o broju stupnjeva slobode. Ako je veličina uzorka dovoljno velika, tada su vrijednosti koje odgovaraju ovim vjerojatnostima t su jednaki: 1,96, 2,58 i 3,29 . Dakle, marginalna greška uzorkovanja nam omogućava da odredimo granične vrijednosti karakteristika opće populacije i njihovih intervala povjerenja:

Distribucija rezultata selektivnog posmatranja na opštu populaciju u socio-ekonomskim studijama ima svoje karakteristike, jer zahteva potpunost reprezentativnosti svih njenih tipova i grupa. Osnova za mogućnost takve distribucije je proračun relativna greška:

gdje Δ % - relativna marginalna greška uzorkovanja; , .

Postoje dvije glavne metode za proširenje promatranja uzorka na populaciju: direktna konverzija i metoda koeficijenata.

Essence direktna konverzija je pomnožiti srednju vrijednost uzorka!!\overline(x) sa veličinom populacije.

Primjer. Neka prosječan broj mališana u gradu bude procijenjen metodom uzorkovanja i iznosi jednu osobu. Ako u gradu ima 1000 mladih porodica, onda se broj potrebnih mjesta u opštinskim jaslicama dobije množenjem ovog prosjeka sa veličinom opšte populacije N = 1000, tj. imaće 1200 mesta.

Metoda koeficijenata preporučljivo je koristiti u slučaju kada se vrši selektivno posmatranje kako bi se razjasnili podaci kontinuiranog posmatranja.

Pri tome se koristi formula:

gdje su sve varijable veličina populacije:

Potrebna veličina uzorka

Tabela 4. Potrebna veličina uzorka (n) za različite tipove organizacije uzorkovanja

Prilikom planiranja uzorkovanja sa unaprijed određenom vrijednošću dozvoljene greške uzorkovanja, potrebno je pravilno procijeniti traženu veličina uzorka. Ovaj iznos se može odrediti na osnovu dozvoljene greške tokom selektivnog posmatranja na osnovu date verovatnoće koja garantuje prihvatljiv nivo greške (uzimajući u obzir način na koji je posmatranje organizovano). Formule za određivanje potrebne veličine uzorka n mogu se lako dobiti direktno iz formula za graničnu grešku uzorkovanja. Dakle, iz izraza za marginalnu grešku:

veličina uzorka je direktno određena n:

Ova formula to pokazuje sa smanjenjem marginalne greške uzorkovanja Δ značajno povećava potrebnu veličinu uzorka, koja je proporcionalna varijansi i kvadratu Studentovog t-testa.

Za konkretan metod organizacije posmatranja, potrebna veličina uzorka se izračunava prema formulama datim u tabeli. 9.4.

Primjeri praktičnih proračuna

Primjer 1. Proračun srednje vrijednosti i intervala povjerenja za kontinuiranu kvantitativnu karakteristiku.

Za procjenu brzine namirenja sa kreditorima u banci, rađen je slučajni uzorak od 10 platnih dokumenata. Ispostavilo se da su njihove vrijednosti jednake (u danima): 10; 3; petnaest; petnaest; 22; 7; osam; jedan; devetnaest; 20.

Obavezno sa vjerovatnoćom P = 0,954 odrediti marginalnu grešku Δ srednja vrijednost uzorka i granice povjerenja prosječnog vremena izračunavanja.

Odluka. Prosječna vrijednost se izračunava po formuli iz tabele. 9.1 za populaciju uzorka

Disperzija se izračunava prema formuli iz tabele. 9.1.

Srednja kvadratna greška dana.

Greška srednje vrijednosti izračunava se po formuli:

one. srednja vrijednost je x ± m = 12,0 ± 2,3 dana.

Pouzdanost srednje vrijednosti je bila

Granična greška se izračunava po formuli iz tabele. 9.3 za ponovni izbor, pošto je veličina populacije nepoznata, i za P = 0,954 nivo samopouzdanja.

Dakle, srednja vrijednost je `x ± D = `x ± 2m = 12,0 ± 4,6, tj. njegova prava vrijednost je u rasponu od 7,4 do 16,6 dana.

Korišćenje Studentskog stola. Aplikacija nam omogućava da zaključimo da je za n = 10 - 1 = 9 stepeni slobode dobijena vrijednost pouzdana sa nivoom značajnosti a £ 0,001, tj. rezultirajuća srednja vrijednost se značajno razlikuje od 0.

Primjer 2. Procjena vjerovatnoće (opšti udio) r.

Mehaničkim metodom uzorkovanja istraživanja socijalnog statusa 1000 porodica, otkriveno je da je udio porodica sa niskim primanjima w = 0,3 (30%)(uzorak je bio 2% , tj. n/N = 0,02). Obavezno uz nivo samopouzdanja p = 0,997 definisati indikator R porodice sa niskim primanjima širom regiona.

Odluka. Prema prikazanim vrijednostima funkcije F(t) pronaći za dati nivo pouzdanosti P = 0,997 značenje t=3(vidi formulu 3). Greška graničnog udjela w odrediti po formuli iz tabele. 9.3 za uzorkovanje koje se ne ponavlja (mehaničko uzorkovanje se uvijek ne ponavlja):

Ograničavanje relativne greške uzorkovanja u % bice:

Verovatnoća (opšti udeo) porodica sa niskim primanjima u regionu će biti p=w±Δw, a granice pouzdanosti p se izračunavaju na osnovu dvostruke nejednakosti:

w — Δw ≤ p ≤ w — Δw, tj. prava vrijednost p leži unutar:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Dakle, sa vjerovatnoćom od 0,997, može se tvrditi da se udio porodica sa niskim primanjima među svim porodicama u regionu kreće od 28,6% do 31,4%.

Primjer 3 Izračunavanje srednje vrijednosti i intervala pouzdanosti za diskretnu karakteristiku specificiranu nizom intervala.

U tabeli. 5. Određuje se distribucija aplikacija za izradu narudžbi prema vremenu njihove implementacije od strane preduzeća.

Tabela 5. Distribucija zapažanja prema vremenu nastanka

Odluka. Prosječno vrijeme završetka narudžbe se izračunava po formuli:

Prosječno vrijeme će biti:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mjeseci

Isti odgovor dobijamo ako koristimo podatke o p i iz pretposljednje kolone tabele. 9.5 koristeći formulu:

Imajte na umu da se sredina intervala za posljednju gradaciju nalazi umjetnim dodavanjem širine intervala prethodne gradacije jednakom 60 - 36 = 24 mjeseca.

Disperzija se izračunava po formuli

gdje x i- sredina intervalne serije.

Dakle!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) i standardna greška je .

Greška srednje vrijednosti izračunava se po formuli za mjesece, tj. srednja vrijednost je!!\overline(x) ± m = 23,1 ± 13,4.

Granična greška se izračunava po formuli iz tabele. 9.3 za ponovni odabir jer je veličina populacije nepoznata, za nivo pouzdanosti 0,954:

Dakle, srednja vrijednost je:

one. njegova prava vrijednost je u rasponu od 0 do 50 mjeseci.

Primjer 4 Da bi se utvrdila brzina namirenja sa kreditorima N = 500 preduzeća korporacije u poslovnoj banci, potrebno je sprovesti selektivnu studiju metodom slučajnog nerepetitivnog odabira. Odrediti potrebnu veličinu uzorka n tako da sa vjerovatnoćom P = 0,954 greška srednje vrijednosti uzorka ne prelazi 3 dana, ako su probne procjene pokazale da je standardna devijacija s 10 dana.

Odluka. Za određivanje broja potrebnih studija n koristimo formulu za nerepetitivnu selekciju iz tabele. 9.4:

U njemu se vrijednost t određuje iz za nivo pouzdanosti R = 0,954. Jednako je 2. Srednja kvadratna vrijednost s = 10, veličina populacije N = 500 i marginalna greška srednje vrijednosti Δ x = 3. Zamjenom ovih vrijednosti u formulu dobijamo:

one. dovoljno je napraviti uzorak od 41 preduzeća da bi se procenio traženi parametar - brzina obračuna sa poveriocima.

Da bi se okarakterisala pouzdanost indikatora uzorka, pravi se razlika između prosečnih i marginalnih grešaka uzorka, koje su karakteristične samo za posmatranja uzorka. Ovi indikatori odražavaju razliku između uzorka i odgovarajućih opštih indikatora.

Prosječna greška uzorka određuje se prvenstveno veličinom uzorka i zavisi od strukture i stepena varijacije osobine koja se proučava.

Značenje srednje greške uzorkovanja je sljedeće. Izračunate vrijednosti frakcije uzorka (w) i srednje vrijednosti uzorka () su po svojoj prirodi slučajne varijable. One mogu poprimiti različite vrijednosti ovisno o tome koje specifične jedinice opće populacije spadaju u uzorak. Na primjer, ako se pri određivanju prosječne starosti zaposlenih u preduzeću više mladih ljudi uključi u jedan uzorak, a stariji radnici u drugi, tada će se vrijednosti uzorka i greške uzorka razlikovati. Prosječna greška uzorkovanja određuje se formulom:

(27) ili - ponovno uzorkovanje. (28)

Gdje je: μ prosječna greška uzorkovanja;

σ je standardna devijacija osobine u općoj populaciji;

n je veličina uzorka.

Vrijednost greške μ pokazuje kako se srednja vrijednost obilježja, utvrđena uzorkom, razlikuje od prave vrijednosti karakteristike u opštoj populaciji.

Iz formule slijedi da je greška uzorkovanja direktno proporcionalna standardnoj devijaciji i obrnuto proporcionalna kvadratnom korijenu broja jedinica u uzorku. To znači, na primjer, da što je veća rasprostranjenost vrijednosti neke karakteristike u općoj populaciji, odnosno što je veća disperzija, to bi veličina uzorka trebala biti veća ako želimo vjerovati rezultatima ankete uzorka. . Nasuprot tome, uz malu varijansu, može se ograničiti na mali broj populacija uzoraka. Greška uzorkovanja će tada biti unutar prihvatljivih granica.

Budući da se veličina opšte populacije N tokom uzorkovanja smanjuje tokom neponovljene selekcije, dodatni faktor je uključen u formulu za izračunavanje prosječne greške uzorkovanja

(jedan-). Formula za srednju grešku uzorkovanja ima sljedeći oblik:

Prosječna greška je manja za neponovljeno uzorkovanje, što ga čini širom primjenom.

Praktični zaključci zahtijevaju karakterizaciju opće populacije na osnovu rezultata uzorka. Uzorak srednjih vrijednosti i proporcija primjenjuju se na opštu populaciju, uzimajući u obzir granicu njihove moguće greške, i sa nivoom vjerovatnoće koji to garantuje. S obzirom na određeni nivo vjerovatnoće, odabire se vrijednost normaliziranog odstupanja i određuje se marginalna greška uzorkovanja.

Pouzdanost (vjerovatnoća pouzdanosti) procjene X prema X* zove verovatnoća γ , sa kojim je nejednakost


׀H-H*׀< δ, (30)

gdje je δ granična greška uzorkovanja koja karakterizira širinu intervala u kojem se vrijednost proučavanog parametra opće populacije nalazi s vjerovatnoćom γ.

Trusted poziva se interval (X* - δ; X* + δ), koji pokriva istraženi parametar X (to jest, vrijednost parametra X je unutar ovog intervala) sa datom pouzdanošću γ.

Obično se pouzdanost procjene unaprijed postavlja, a broj blizu jedan uzima se kao γ: 0,95; 0,99 ili 0,999.

Granična greška δ povezana je sa prosječnom greškom μ na sljedeći način: , (31)

gdje je: t faktor povjerenja, u zavisnosti od vjerovatnoće P, sa kojim se može tvrditi da marginalna greška δ neće premašiti t-struku prosječnu grešku μ (naziva se i kritične tačke ili kvantili Studentove distribucije).

Kao što slijedi iz relacije , granična greška je direktno proporcionalna prosječnoj grešci uzorkovanja i koeficijentu pouzdanosti, koji zavisi od datog nivoa pouzdanosti procjene.

Iz formule za prosječnu grešku uzorkovanja i omjera granične i prosječne greške dobijamo:

Uzimajući u obzir vjerovatnoću povjerenja, ova formula će poprimiti oblik.

Greške su sistematske i nasumične

Modularna jedinica 2 Greške uzorkovanja

Budući da uzorak obično pokriva vrlo mali dio populacije, treba pretpostaviti da će postojati razlike između procjene i karakteristike populacije koju ova procjena odražava. Ove razlike se nazivaju greške prikaza ili greške reprezentativnosti. Greške u reprezentativnosti dijele se na dvije vrste: sistematske i slučajne.

Sistematske greške- ovo je stalno precjenjivanje ili potcjenjivanje vrijednosti procjene u odnosu na karakteristike opšte populacije. Razlog za pojavu sistematske greške je nepoštivanje principa jednake vjerovatnoće ulaska svake jedinice opšte populacije u uzorak, odnosno uzorak se formira od pretežno „najgorih“ (ili „najboljih“) predstavnika. opšte populacije. Poštivanje principa jednakih šansi da svaka jedinica uđe u uzorak omogućava potpuno otklanjanje ove vrste greške.

Slučajne greške - ovo su razlike između procjene i procijenjene karakteristike opće populacije, koje variraju od uzorka do uzorka u znaku i veličini. Razlog za pojavu slučajnih grešaka je igra slučajnosti u formiranju uzorka koji je samo dio opće populacije. Ova vrsta greške je svojstvena metodi uzorkovanja. Nemoguće ih je potpuno isključiti, zadatak je predvidjeti njihovu moguću veličinu i svesti ih na minimum. Redoslijed radnji u vezi s tim slijedi iz razmatranja tri vrste slučajnih grešaka: specifične, srednje i ekstremne.

2.2.1 Specifično greška je greška jednog uzorka. Ako je prosjek za ovaj uzorak () procjena za opću srednju vrijednost (0) i, pod pretpostavkom da nam je ovaj opći prosjek poznat, onda je razlika = -0 i biće specifična greška ovog uzorka. Ako uzorak iz ove opće populacije ponovimo mnogo puta, onda svaki put dobijamo novu vrijednost određene greške: ..., itd. Što se tiče ovih specifičnih grešaka, možemo reći sljedeće: neke od njih će se podudarati po veličini i predznaku, odnosno postoji distribucija grešaka, neke od njih će biti jednake 0, postoji podudarnost procjene i parametra opšte populacije;

2.2.2 Prosječna greška je srednji kvadrat svih specifičnih grešaka u proceni mogućih slučajno: , gde je vrednost različitih specifičnih grešaka; učestalost (vjerovatnost) pojave određene greške. Prosječna greška uzorka pokazuje kolika se greška u prosjeku može napraviti ako se na osnovu procjene donese sud o parametru opšte populacije. Gornja formula otkriva sadržaj prosječne greške, ali se ne može koristiti za praktične proračune, makar samo zato što pretpostavlja poznavanje parametra opće populacije, što samo po sebi isključuje potrebu za uzorkovanjem.



Praktični proračuni srednje greške procjene temelje se na pretpostavci da je ona (srednja greška) u suštini standardna devijacija svih mogućih vrijednosti procjene. Ova premisa omogućava dobijanje algoritama za izračunavanje srednje greške na osnovu podataka jednog uzorka. Konkretno, srednja greška srednje vrijednosti uzorka može se utvrditi na osnovu sljedećeg rezonovanja. Postoji izbor (,… ) koji se sastoji od jedinica. Za uzorak, srednja vrijednost uzorka se utvrđuje kao procjena opšteg prosjeka. Svaku vrijednost (,… ) pod predznakom zbira treba smatrati nezavisnom slučajnom varijablom, budući da je prva, druga itd. jedinice mogu preuzeti bilo koju od vrijednosti prisutnih u općoj populaciji. Stoga, Budući da je, kao što je poznato, varijansa sume nezavisnih slučajnih varijabli jednaka zbroju varijansi, tada je . Iz toga slijedi da će prosječna greška za srednju vrijednost uzorka biti jednaka i obrnuto je povezana sa veličinom uzorka (kroz njegov kvadratni korijen) iu direktnoj proporciji sa standardnom devijacijom karakteristike u općoj populaciji. Ovo je logično, budući da je srednja vrijednost uzorka konzistentna procjena za opću srednju vrijednost i, kako se veličina uzorka povećava, približava se po svojoj vrijednosti procijenjenom parametru opšte populacije. Direktna ovisnost prosječne greške od varijabilnosti osobine je zbog činjenice da što je veća varijabilnost osobine u opštoj populaciji, to je teže izgraditi adekvatan model opšte populacije na osnovu uzorka. U praksi se standardna devijacija neke karakteristike u opštoj populaciji zamjenjuje njenom procjenom za uzorak, a onda formula za izračunavanje prosječne greške srednje vrijednosti uzorka postaje:, uzimajući u obzir pristrasnost varijanse uzorka, standardna devijacija uzorka izračunava se po formuli = . Pošto simbol n označava veličinu uzorka. , tada nazivnik pri izračunavanju standardne devijacije ne treba koristiti veličinu uzorka (n), već tzv. broj stupnjeva slobode (n-1). Pod brojem stupnjeva slobode podrazumijeva se broj jedinica u agregatu, koji mogu slobodno varirati (mijenjati) ako je bilo koja karakteristika definirana u agregatu. U našem slučaju, pošto je određen prosjek uzorka, jedinice mogu slobodno varirati.

Tabela 2.2 daje formule za izračunavanje srednjih grešaka različitih procjena uzorka. Kao što se može vidjeti iz ove tabele, vrijednost prosječne greške za sve procjene je obrnuto povezana sa veličinom uzorka iu direktnoj vezi sa varijabilnosti. Ovo se može reći i za srednju grešku frakcije uzorka (učestalosti). Ispod korijena je varijansa alternativnog obilježja, utvrđena uzorkom ()

Formule date u tabeli 2.2 odnose se na takozvani slučajni, ponovljeni odabir jedinica u uzorku. Uz druge metode odabira, o kojima će biti riječi u nastavku, formule će biti donekle modificirane.

Tabela 2.2

Formule za izračunavanje srednjih grešaka procjena uzorka

2.2.3 Granična greška uzorkovanja Poznavanje procjene i njene srednje greške je u nekim slučajevima potpuno nedovoljno. Na primjer, kada se koriste hormoni u ishrani životinja, poznavanje samo prosječne veličine njihovih neraspadnutih štetnih ostataka i prosječne greške znači izlaganje potrošača proizvoda ozbiljnoj opasnosti. Ovdje je potrebno odrediti maksimum ( marginalna greška). Kada se koristi metoda uzorkovanja, granična greška se ne postavlja u obliku određene vrijednosti, već u obliku jednakih granica

(intervali) u bilo kojem smjeru od vrijednosti evaluacije.

Određivanje granica granične greške zasniva se na karakteristikama distribucije specifičnih grešaka. Za takozvane velike uzorke, čiji je broj veći od 30 jedinica () , specifične greške se distribuiraju u skladu sa zakonom normalne distribucije; sa malim uzorcima () specifične greške se distribuiraju u skladu sa Gossetovim zakonom distribucije

(Student). U pogledu specifičnih grešaka srednje vrijednosti uzorka, funkcija normalne distribucije ima oblik: , gdje je gustina vjerovatnoće pojavljivanja određenih vrijednosti, s tim da su , gdje su srednje vrijednosti uzorka; - opšta srednja vrednost, - srednja greška za srednju vrednost uzorka. S obzirom da je prosječna greška () konstantna vrijednost, tada se, u skladu sa normalnim zakonom, distribuiraju specifične greške, izražene u dijelovima prosječne greške, ili takozvana normalizirana odstupanja.

Uzimajući integral funkcije normalne distribucije, može se utvrditi vjerovatnoća da će greška biti zatvorena u određenom intervalu od t i vjerovatnoća da će greška prijeći ovaj interval (obrnuti događaj). Na primer, verovatnoća da greška neće preći polovinu prosečne greške (u oba smera od opšteg proseka) je 0,3829, da će greška biti sadržana u jednoj prosečnoj grešci - 0,6827, 2 prosečne greške - 0,9545 itd.

Odnos između nivoa vjerovatnoće i intervala promjene t (i, konačno, intervala promjene greške) omogućava nam da pristupimo definiciji intervala (ili granica) granične greške, povezujući njegovu vrijednost s vjerovatnoćom. Vjerovatnoća implementacije je vjerovatnoća da će greška biti u nekom intervalu. Vjerovatnoća implementacije će biti "pouzdanje" u slučaju da suprotni događaj (greška će biti izvan intervala) ima takvu vjerovatnoću pojavljivanja da se može zanemariti. Stoga se nivo pouzdanosti vjerovatnoće postavlja, po pravilu, ne manji od 0,90 (vjerovatnoća suprotnog događaja je 0,10). Što više negativnih posledica ima pojava grešaka van utvrđenog intervala, to bi nivo poverenja verovatnoće trebalo da bude veći (0,95; 0,99; 0,999 i tako dalje).

Nakon što odaberete nivo pouzdanosti verovatnoće iz tabele integrala verovatnoće normalne distribucije, trebalo bi da pronađete odgovarajuću vrednost t, a zatim pomoću izraza = odredite interval granične greške . Značenje dobijene vrednosti je sledeće: sa prihvaćenim nivoom poverenja verovatnoće, marginalna greška srednje vrednosti uzorka neće preći .

Da bi se uspostavile granice marginalne greške na osnovu velikih uzoraka za druge procjene (varijansa, standardna devijacija, udjeli i tako dalje), koristi se gornji pristup, uzimajući u obzir činjenicu da se koristi drugačiji algoritam za određivanje prosječne greške za svaku procjenu .

Što se tiče malih uzoraka (), kao što je već pomenuto, distribucija grešaka u proceni odgovara u ovom slučaju raspodeli t - Student. Posebnost ove distribucije je u tome što, uz grešku, kao parametar sadrži i veličinu uzorka, odnosno ne veličinu uzorka, već broj stupnjeva slobode. Sa povećanjem veličine uzorka, t-Student distribucija se približava normalnoj, a pri , ove distribucije se praktično poklapaju. Uspoređujući vrijednosti t-Studenta i t - normalne distribucije sa istom vjerovatnoćom povjerenja, možemo reći da je vrijednost t-Studenta uvijek veća od t - normalne distribucije, a razlike se povećavaju sa smanjenjem veličine uzorka i sa povećanjem stepena poverenja verovatnoće. Shodno tome, kada se koriste mali uzorci, postoje veće margine marginalne greške u poređenju sa velikim uzorcima, a ove granice se šire sa smanjenjem veličine uzorka i povećanjem nivoa pouzdanosti verovatnoće.