Biografije Karakteristike Analiza

Srednja kvadratna greška uzorka je veća od. Objašnjenje standardne greške srednjeg kvadrata uzorka za

Prosječna greška uzorka pokazuje koliko parametar u prosjeku odstupa okvir za uzorkovanje iz odgovarajućeg opšteg parametra. Ako izračunamo prosjek grešaka svih mogućih uzoraka određene vrste dati volumen ( n) izdvojene iz iste opće populacije, onda dobijamo njihovu generalizirajuću karakteristiku - srednja greška uzorkovanja ().

U teoriji selektivnog promatranja, formule za određivanje , koje su individualne za Različiti putevi odabir (ponovljeni i neponovljeni), vrste korištenih uzoraka i vrste procijenjenih statističkih indikatora.

Na primjer, ako se koristi ponovljeno nasumično uzorkovanje, onda se ono definira kao:

Prilikom procjene srednje vrijednosti karakteristike;

Ako je znak alternativni, a udio se procjenjuje.

U slučaju neponovljenog slučajnog odabira, formule se mijenjaju (1 - n/N):

- za srednju vrijednost atributa;

- za dionicu.

Vjerovatnoća dobijanja upravo takve vrijednosti greške uvijek je jednaka 0,683. U praksi je poželjno dobiti podatke sa većom vjerovatnoćom, ali to dovodi do povećanja veličine greške uzorkovanja.

Granična greška uzorkovanja () jednaka je t puta broju prosječnih grešaka uzorkovanja (u teoriji uzorkovanja uobičajeno je koeficijent t nazvati koeficijentom povjerenja):

Ako se greška uzorkovanja udvostruči (t = 2), onda dobijamo mnogo veću vjerovatnoću da neće preći određenu granicu (u našem slučaju duplo prosečna greška) - 0,954. Ako uzmemo t = 3, onda nivo samopouzdanja biće 0,997 - praktično izvesnost.

Nivo marginalna greška uzorkovanje zavisi od sledećih faktora:

  • stepen varijacije jedinica opšte populacije;
  • veličina uzorka;
  • odabrane šeme selekcije (neponovljiva selekcija daje manju vrijednost greške);
  • nivo samopouzdanja.

Ako je veličina uzorka veća od 30, tada se vrijednost t određuje iz tabele normalne distribucije, ako je manja - iz Studentove tabele raspodjele.

Evo nekih vrijednosti koeficijenta pouzdanosti iz tablice normalne distribucije.

Interval pouzdanosti za srednju vrijednost atributa i za udio u općoj populaciji postavljen je na sljedeći način:

Dakle, definicija granica opšteg prosjeka i udjela sastoji se od sljedećih koraka:

Greške uzorkovanja na razne vrste izbor

  1. Zapravo nasumično i mehaničko uzorkovanje. Prosječna greška stvarnog slučajnog i mehaničkog uzorkovanja nalazi se korištenjem formula prikazanih u tabeli. 11.3.

Primjer 11.2. Da bi se proučio nivo povrata na sredstva, sprovedeno je istraživanje uzorka 90 preduzeća od 225 korišćenjem slučajnog resampling, što je rezultiralo podacima prikazanim u tabeli.

U ovom primjeru imamo uzorak od 40% (90:225 = 0,4 ili 40%). Odredimo njegovu marginalnu grešku i granice za prosječnu vrijednost osobine u opštoj populaciji koracima algoritma:

  1. Na osnovu rezultata ankete uzorka izračunavamo srednju vrijednost i varijansu u populaciji uzorka:
Tabela 11.5.
Rezultati posmatranja Procijenjene vrijednosti
povrat na sredstva, rub., x i broj preduzeća, f i sredina intervala, x i \xb4 x i \xb4 f i x i \xb4 2 f i
Do 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 i novije verzije 14 2,3 32,2 74,06
Ukupno 90 - 162,6 303,62

Uzorak srednji

Varijanca uzorka ispitivane osobine

Za naše podatke definiramo marginalnu grešku uzorkovanja, na primjer, sa vjerovatnoćom od 0,954. Prema tabeli vrijednosti vjerovatnoće funkcije normalne distribucije (pogledajte izvod iz nje dat u Dodatku 1), nalazimo vrijednost koeficijenta pouzdanosti t koja odgovara vjerovatnoći od 0,954. Sa vjerovatnoćom od 0,954, koeficijent t je 2.

Dakle, u 954 slučaja od 1000, prosječni povrat na imovinu neće premašiti 1,88 rubalja. i ne manje od 1,74 rubalja.

Iznad je korištena ponovljena shema slučajnog odabira. Pogledajmo da li se rezultati ankete mijenjaju ako pretpostavimo da je selekcija obavljena prema šemi selekcije bez ponavljanja. U ovom slučaju, prosječna greška se izračunava pomoću formule

Tada će, s vjerovatnoćom jednakom 0,954, granična greška uzorkovanja biti:

Granice pouzdanosti za srednju vrijednost karakteristike u slučaju nerepetitivnog slučajnog odabira imat će sljedeće vrijednosti:

Upoređujući rezultate dvije šeme selekcije, možemo zaključiti da korištenje nerepetitivnog slučajnog uzorkovanja daje tačnije rezultate u odnosu na korištenje ponovljenog odabira sa istim nivoom povjerenja. Istovremeno, što je veća veličina uzorka, to su granice srednjih vrijednosti značajnije suže kada se prelazi s jedne šeme selekcije na drugu.

Prema primjeru, određujemo granice udjela preduzeća s povratom na imovinu koja ne prelazi 2,0 rublje u općoj populaciji:

  1. Izračunajmo stopu uzorkovanja.

Broj preduzeća u uzorku sa povratom na sredstva ne većim od 2,0 rublje je 60 jedinica. Onda

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. izračunati varijansu udjela u populaciji uzorka
  1. prosječna greška uzorkovanja pri korištenju re-scheme selekcija će biti

Ako pretpostavimo da je korištena shema selekcije koja se ne ponavlja, tada će prosječna greška uzorkovanja, uzimajući u obzir korekciju za konačnost populacije, biti

  1. postavljamo vjerovatnoću povjerenja i određujemo graničnu grešku uzorkovanja.

Sa vrijednošću vjerovatnoće P = 0,997, prema tablici normalne distribucije, dobijamo vrijednost za koeficijent pouzdanosti t = 3 (pogledati izvod iz njega dat u Dodatku 1):

Dakle, sa vjerovatnoćom od 0,997, može se tvrditi da u opštoj populaciji udio preduzeća sa povratom na sredstva koja ne prelazi 2,0 rublje nije manji od 54,7% i ne veći od 78,7%.

  1. Tipičan uzorak. Sa tipičnim uzorkom stanovništva objekata je tada podijeljeno u k grupa

N 1 + N 2 + ... + N i + ... + N k = N.

Obim jedinica izdvojenih iz svake tipične grupe zavisi od usvojene metode selekcije; njima ukupno formira potrebnu veličinu uzorka

n 1 + n 2 + … + n i + … + n k = n.

Postoje sljedeća dva načina organiziranja selekcije unutar tipične grupe: proporcionalno obimu tipičnih grupa i proporcionalno stupnju fluktuacije vrijednosti atributa u jedinicama posmatranja u grupama. Razmotrite prvu od njih, kao najčešće korištenu.

Odabir proporcionalan veličini tipičnih grupa pretpostavlja da će u svakoj od njih biti odabrana sljedeći broj jedinice stanovništva:

n = n i N i /N

gdje je n i broj jedinica koje se mogu izdvojiti za uzorak iz i-te tipične grupe;

n je ukupna veličina uzorka;

N i - broj jedinica opšte populacije koje su činile i-tu tipičnu grupu;

N je ukupan broj jedinica u općoj populaciji.

Odabir jedinica unutar grupa odvija se u obliku slučajnog ili mehaničkog uzorkovanja.

Formule za procjenu srednje greške uzorkovanja za srednju vrijednost i udio prikazane su u tabeli. 11.6.

Ovdje je prosjek grupnih varijansi tipičnih grupa.

Primjer 11.3. Sprovedeno je selektivno istraživanje studenata na jednom od moskovskih univerziteta kako bi se utvrdio indikator prosječnog pohađanja univerzitetske biblioteke od strane jednog studenta po semestru. Za to je korišten 5% neponovljeni tipični uzorak, čije tipične grupe odgovaraju broju kursa. Pri odabiru, proporcionalno obimu tipičnih grupa, dobijeni su sljedeći podaci:

Tabela 11.7.
Broj kursa Ukupno studenata, ljudi, N i Ispitano kao rezultat selektivnog posmatranja, ljudi, n i Prosječan broj posjeta biblioteci po studentu po semestru, x i Varijanca unutargrupnog uzorka,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Ukupno 2 550 128 8 -

Broj polaznika koji se ispituju na svakom predmetu izračunava se na sljedeći način:

slično za druge grupe:

Raspodjela vrijednosti uzorka uvijek ima normalan zakon raspodjele (ili mu se približava) za n > 100, bez obzira na prirodu distribucije opće populacije. Međutim, u slučaju malih uzoraka, primjenjuje se drugačiji zakon raspodjele – Studentova raspodjela. U ovom slučaju, koeficijent pouzdanosti se nalazi prema Studentovoj tabeli t-distribucije, u zavisnosti od vrijednosti vjerovatnoće pouzdanosti P i veličine uzorka n. Dodatak 1 daje fragment Studentove tabele t-distribucije, predstavljen kao zavisnost vjerovatnoće povjerenja na veličinu uzorka i koeficijenta povjerenja t.

Primjer 11.4. Pretpostavimo da je uzorak ankete osam studenata akademije pokazao da je to u pripremi za kontrolni rad prema statističkim podacima potrošili su sljedeći broj sati: 8,5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

Primjer 11.5. Izračunajmo koliko od 507 industrijska preduzeća poreska uprava treba provjeriti da bi se utvrdio udio preduzeća sa poreskim prekršajima sa vjerovatnoćom od 0,997. Prema prethodnom sličnom istraživanju, vrijednost standardne devijacije iznosila je 0,15; očekuje se da veličina greške uzorkovanja ne bude veća od 0,05.

Kada koristite ponovljeni slučajni odabir, provjerite

Kod slučajnog odabira koji se ne ponavlja, bit će potrebno provjeriti

Kao što možete vidjeti, korištenje nerepetitivnog uzorkovanja vam omogućava da mnogo provodite anketu manje objekata.

Primjer 11.6. Planirano je istraživanje plate u preduzećima industrije metodom slučajnog nerepetitivnog odabira. Kolika bi trebala biti veličina uzorka ako je u vrijeme istraživanja broj zaposlenih u industriji bio 100.000 ljudi? Granična greška uzorkovanja ne bi trebala prelaziti 100 rubalja. sa vjerovatnoćom od 0,954. Iz ranijih istraživanja zarada u industriji, poznato je da je prosječna standardna devijacija iznosi 500 rubalja.

Stoga je za rješavanje problema potrebno u uzorak uključiti najmanje 100 ljudi.

Nesklad između vrijednosti indikatora dobijenih iz uzorka i odgovarajućih parametara opće populacije naziva se greška reprezentativnosti. Razlikovati sistematski i slučajne greške uzorci.

Slučajne greške nije dovoljno objašnjeno uniformno predstavljanje u skupu uzoraka različitih kategorija jedinica opšte populacije.

Sistematske greške može biti povezano sa kršenjem pravila selekcije ili uslova za implementaciju uzorka.

Dakle, pri anketiranju budžeta domaćinstava okvir uzorkovanja se gradio više od 40 godina na osnovu teritorijalno-sektorskog principa selekcije, što je bilo zbog glavnog cilja proračunskog istraživanja - karakterizacije životnog standarda radnika, zaposlenih. i kolekcionari. Uzorak je raspoređen po regionima i sektorima privrede RSFSR proporcionalno ukupna snaga zaposlen; za kreiranje industrijskog uzorka korišćen je tipičan uzorak sa mehaničkim odabirom jedinica unutar grupa.

Glavni kriterijum izbora bila je prosečna mesečna plata. Princip selekcije obezbijedio je proporcionalnu zastupljenost u uzorku radnika sa različitim nivoima zarada.

Sa pojavom novih društvene grupe(preduzetnici, poljoprivrednici, nezaposleni), reprezentativnost uzorka je narušena ne samo zbog razlika u strukturi opšte populacije, već i zbog sistematske greške koja je nastala zbog neusklađenosti jedinice uzorka (zaposlenog) i jedinica za posmatranje (domaćinstvo). Veća je vjerovatnoća da će biti odabrano domaćinstvo sa više od jednog zaposlenog člana porodice nego domaćinstvo sa jednim radnikom. Porodice koje nisu zaposlene u anketiranim sektorima ispale su iz opsega odabranih jedinica (penzionerska domaćinstva, samozaposlena domaćinstva, itd.). Bilo je teško procijeniti tačnost dobijenih rezultata (granice intervala povjerenja, greške uzorkovanja), budući da pri konstrukciji uzorka nisu korišteni vjerojatnosni modeli.

U 1996–1997 je fundamentalno uveden novi pristup na uzorkovanje domaćinstava. Kao osnova za njegovu realizaciju korišteni su podaci mikropopisa stanovništva iz 1994. Opću populaciju u selekciji činile su sve vrste domaćinstava, osim kolektivnih. I skup uzorka počeo se organizirati uzimajući u obzir reprezentativnost sastava i tipova domaćinstava unutar svakog subjekta Ruske Federacije.

Mjerenje grešaka u reprezentativnosti indikatora uzorka zasniva se na pretpostavci o nasumičnoj prirodi njihove distribucije na beskonačno veliki brojevi uzorci.

Kvantificiranje pouzdanosti indikatora uzorka koristi se da bi se dobila ideja o općoj karakteristici. To se provodi ili na osnovu indikatora uzorka, uzimajući u obzir njegovu slučajnu grešku, ili na osnovu određene hipoteze (o vrijednosti srednja varijansa, priroda distribucije, povezanost) u odnosu na svojstva opšte populacije.

Da bi se testirala hipoteza, ocjenjuje se konzistentnost empirijskih podataka sa hipotetičkim podacima.

Veličina greške slučajne reprezentativnosti zavisi od:

  • 1) o veličini uzorka;
  • 2) stepen varijacije proučavane osobine u opštoj populaciji;
  • 3) prihvaćen način formiranja uzorka populacije.

Postoje srednje (standardne) i marginalne greške uzorkovanja.

Prosječna greška karakterizira mjeru odstupanja indikatora uzorka od sličnih indikatora opšte populacije.

marginalna greška uobičajeno je uzeti u obzir maksimalno moguće odstupanje između uzorka i općih karakteristika, tj. maksimalna greška za datu vjerovatnoću njenog nastanka.

Prema populaciji uzorka moguće je vrednovati različite indikatore (parametre) opšte populacije. Najčešće korišteni rezultati su:

Osnovni princip primjene metode uzorkovanja je osigurati jednaku mogućnost da sve jedinice opće populacije budu odabrane u populaciju uzorka. Ovim pristupom uvažava se zahtjev nasumične, objektivne selekcije i stoga je greška uzorkovanja određena prvenstveno njenom veličinom ( P ). Sa povećanjem potonjeg, vrijednost prosječne greške opada, karakteristike populacije uzorka se približavaju karakteristikama opće populacije.

Sa istim brojem setova za uzorkovanje i ostalo jednaki uslovi greška uzorkovanja će biti manja kod goja od njih, koji je odabran iz opće populacije sa manjim varijacijama u proučavanoj osobini. Smanjenje varijacije osobine znači smanjenje vrijednosti varijanse (za kvantitativno svojstvo ili za alternativno svojstvo).

Ovisnost veličine greške uzorkovanja o metodama formiranja populacije uzorka određena je formulama za prosječnu grešku uzorkovanja (tablica 5.2).

Dopunimo indikatore tabele. 5.2 sa sljedećim objašnjenjima.

Varijanca uzorka je nešto manja od opće varijanse. matematičke statistike dokazao to

Tabela 5.2

Formule za izračunavanje prosječne greške uzorka mri razne načine izbor

Tip uzorka

ponovljeno za

neponovljivo za

Zapravo

nasumično

(jednostavno)

Serial

(sa jednakim

Tipično (proporcionalno veličini grupa)

Ako je uzorak velik (tj. P dovoljno velik), tada se omjer približava jedinici i varijansa uzorka se praktično poklapa sa općom.

Uzorak se smatra bezuslovno velikim kada n> 100 i bezuslovno mali na P < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Oni se mogu izračunati pomoću sljedećih formula:

gdje je prosjek i th serija; je ukupni prosjek za cijeli uzorak;

gdje je udio jedinica određene kategorije u i th serija; - udio jedinica ove kategorije u cjelokupnom uzorku; r- broj odabranih epizoda.

4. Za određivanje prosječne greške tipičnog uzorka u slučaju odabira jedinica proporcionalno veličini svake grupe, prosek od varijanse unutar grupe(– za kvantitativnu karakteristiku, za alternativnu karakteristiku). Prema pravilu za sabiranje varijansi, vrijednost prosjeka unutargrupnih varijansi je manja od vrijednosti totalna varijansa. Srednja vrijednost moguća greška tipično uzorkovanje je manje od greške jednostavnog pravilnog slučajnog uzorkovanja.

Često se koristi kombinovani izbor: individualni odabir jedinica se kombinuje sa grupnim odabirom, tipičan odabir se kombinuje sa selekcijom u serijama. Uz bilo koju metodu selekcije, sa određenom vjerovatnoćom, može se tvrditi da odstupanje srednje vrijednosti uzorka (ili udjela) od opšte srednje vrijednosti (ili udjela) neće premašiti određenu vrijednost, koja se naziva marginalna greška uzorci.

Omjer između granice greške uzorkovanja (∆) zajamčena s određenom vjerovatnoćom F(t), a srednja greška uzorkovanja ima oblik: ili , gdje t – koeficijent pouzdanosti, određen u zavisnosti od nivoa verovatnoće F(t).

Vrijednosti funkcije F(t) i t određuju se na osnovu posebno sastavljenih matematičkih tabela. Evo nekih od najčešće korištenih:

t

Dakle, granična greška uzorkovanja odgovara na pitanje tačnosti uzorkovanja sa određenom vjerovatnoćom, čija vrijednost ovisi o vrijednosti koeficijenta pouzdanosti t. Da, u t = 1 vjerovatnoća F(t ) odstupanje karakteristika uzorka od opštih za vrijednost pojedinačne srednje greške je 0,683. Shodno tome, u prosjeku, od svakih 1000 uzoraka, 683 će dati generalizovane indikatore (prosjek, udio), koji će se od opštih razlikovati samo za jednu prosječnu grešku. At t = 2 vjerovatnoća F(t) je jednako 0,954, što znači da će od svakih 1000 uzoraka 954 dati opće pokazatelje koji će se razlikovati od općih za najviše dva puta prosječnu grešku uzorka itd.

Kao i apsolutna vrijednost izračunava se marginalna greška uzorkovanja i relativna greška, koji je definisan kao postotak marginalna greška uzorkovanja na odgovarajuću karakteristiku populacije uzorka:

U praksi je uobičajeno da se vrijednost ∆ postavlja po pravilu unutar 10% očekivanog prosječnog nivoa atributa.

Izračun prosječne i granične greške uzorkovanja omogućava vam da odredite granice unutar kojih će karakteristike opće populacije biti:

Granice u kojima će, sa datim stepenom verovatnoće, biti sadržana nepoznata vrednost indikatora koji se proučava u opštoj populaciji nazivaju se interval povjerenja, i vjerovatnoća F(t) verovatnoća poverenja. Što je veća vrijednost ∆, to je veća vrijednost interval povjerenja a time i niža tačnost procjene.

Razmotrite sljedeći primjer. Za određivanje prosječne veličine depozita u banci, metodom ponovljenog slučajnog uzorka odabrano je 200 deviznih računa deponenata. Kao rezultat toga, ustanovljeno je da prosječne veličine depozit - 60 hiljada rubalja, disperzija je bila 32. Istovremeno se pokazalo da je 40 računa bilo na zahtjev. Potrebno je, sa vjerovatnoćom od 0,954, odrediti granice u kojima se nalaze prosječni iznos depozita na deviznim računima u banci i učešće računa po viđenju.

Izračunajte srednju grešku srednje vrijednosti uzorka koristeći formulu ponovnog odabira

Marginalna greška srednje vrijednosti uzorka s vjerovatnoćom od 0,954 će biti

Shodno tome, prosječan depozit na bankovnim računima u stranoj valuti je unutar hiljadu rubalja:

Sa vjerovatnoćom od 0,954, može se tvrditi da se prosječni depozit na bankovnim računima u stranoj valuti kreće od 59.200 do 60.800 rubalja.

Odredimo udio depozita po viđenju u populaciji uzorka:

Srednja greška udjela uzorka

Marginalna greška dionice sa vjerovatnoćom od 0,954 će biti

Dakle, udio računa tražnje u opštoj populaciji je unutar w :

Sa vjerovatnoćom od 0,954, može se tvrditi da se učešće računa po viđenju u ukupnom broju deviznih računa u banci kreće od 14,4 do 25,6%.

At studije slučaja važno je uspostaviti optimalan odnos između mjere pouzdanosti dobijenih rezultata i veličine prihvatljive greške uzorkovanja. S tim u vezi, prilikom organizovanja posmatranja uzorka, postavlja se pitanje koje se odnosi na određivanje veličine uzorka koja je neophodna da bi se dobila potrebna tačnost rezultata sa datom verovatnoćom. Proračun potrebne veličine uzorka vrši se na osnovu formula za graničnu grešku uzorkovanja u skladu sa vrstom i metodom odabira (tabela 5.3).

Tabela 5.3

Formule za izračunavanje veličine uzorka uz odgovarajuću metodu slučajnog odabira

Nastavimo primjer koji predstavlja rezultate uzorka ankete ličnih računa štediša banaka.

Potrebno je odrediti koliko računa treba ispitati tako da s vjerovatnoćom od 0,977 greška u određivanju prosječne veličine depozita ne prelazi 1,5 hiljada rubalja. Izrazimo iz formule za marginalnu grešku uzorkovanja za ponovni odabir indikator veličine uzorka:

Prilikom određivanja potrebne veličine uzorka korištenjem gornjih formula, postaje teško pronaći vrijednosti σ2 i da, budući da se te vrijednosti mogu dobiti tek nakon uzorkovanja. S tim u vezi, umjesto stvarnih vrijednosti ovih pokazatelja, zamjenjuju se približne, koje bi se mogle utvrditi na osnovu bilo kojeg ispitivanja uzorak zapažanja ili iz prethodnih analitičkih istraživanja.

U slučajevima kada statističar zna prosječnu vrijednost karakteristika koje se proučava (na primjer, iz uputstava, zakonskih akata, itd.) ili granice u kojima ova karakteristika varira, može se primijeniti sljedeći proračun pomoću približnih formula:

a proizvod w(1 – w) treba zamijeniti vrijednošću 0,25 (w = 0,5).

Da dobijete više tačan rezultat, uzmite najveću moguću vrijednost ovih indikatora. Ako distribucija neke osobine u opštoj populaciji odgovara normalan zakon, tada je raspon varijacije približno jednak 6σ ( ekstremne vrednosti odvojeno u oba smjera od prosjeka na udaljenosti od 3σ). Dakle , Ali ako je distribucija očito asimetrična, onda .

Kod bilo koje vrste uzorka, njegov volumen počinje se izračunavati prema formuli ponovnog uzorkovanja

Ako, kao rezultat izračuna, udio selekcije ( n ) prelazi 5%, tada se proračun vrši prema formuli nerepetitivnog odabira.

Za tipičan uzorak potrebno je podijeliti ukupan volumen populacije uzorka između odabranih tipova jedinica. Izračunavanje broja posmatranja iz svake grupe zavisi od prethodno imenovanih organizacione forme tipičan uzorak.

U tipičnom odabiru jedinica nesrazmjerno broju grupa, ukupan broj odabranih jedinica dijeli se sa brojem grupa, a rezultirajuća vrijednost daje broj odabira iz svake tipične grupe:

gdje k je broj identifikovanih tipičnih grupa.

Prilikom odabira jedinica proporcionalno broju tipičnih grupa, broj zapažanja za svaku grupu određuje se formulom

odakle je veličina uzorka i -th grupa; - volumen i -th grupa.

Prilikom odabira, uzimajući u obzir varijaciju osobine, procenat uzorka iz svake grupe treba da bude proporcionalan standardnoj devijaciji u ovoj grupi (). Izračunavanje broja () vrši se prema formulama

U serijskom odabiru, potreban broj odabranih serija se određuje na isti način kao i kod pravilnog slučajnog odabira:

Ponovna selekcija

Odabir koji se ne ponavlja

U ovom slučaju, varijanse i greške uzorkovanja mogu se izračunati za srednju vrijednost ili proporciju osobine.

Kada se koristi selektivno posmatranje, karakteristike njegovih rezultata moguće su na osnovu poređenja dobijenih granica greške selektivnih indikatora sa vrednošću dozvoljene greške.

S tim u vezi, nastaje problem određivanja vjerovatnoće da greška uzorkovanja neće premašiti dozvoljenu grešku. Rješenje ovog problema svodi se na proračun zasnovan na formuli za graničnu grešku uzorkovanja veličine t.

Nastavljajući razmatranje primjera uzorka ankete ličnih računa klijenata banke, naći ćemo vjerovatnoću s kojom se može tvrditi da greška u određivanju prosječne veličine depozita neće premašiti 785 rubalja:

odgovarajući nivo pouzdanosti je 0,95.

Trenutno, prakse uzorkovanja uključuju statistička zapažanja sprovedeno:

  • - organi Rosstata;
  • – druga ministarstva i odeljenja (na primer, praćenje preduzeća u sistemu Banke Rusije).

Poznata generalizacija iskustva u organizovanju uzorka istraživanja malih preduzeća, stanovništva i domaćinstava predstavljena je u Metodološkim odredbama o statistici. Daju više širok koncept posmatranje uzorka nego što je gore diskutovano (tabela 5.4).

U statističkoj praksi koriste se sve četiri vrste uzoraka prikazane u tabeli. 5.4. Međutim, prednost se obično daje gore opisanim probabilističkim (slučajnim) uzorcima, koji su najobjektivniji, jer se mogu koristiti za procjenu tačnosti rezultata dobijenih iz podataka samog uzorka.

Tabela 5.4

Tipovi uzoraka

U uzorcima kvazi-slučajni tip vjerovatnoća selekcije se pretpostavlja na osnovu toga da stručnjak koji razmatra uzorak smatra da je prihvatljivo. Primjer upotrebe kvazi-slučajnog uzorkovanja u statističkoj praksi je „Anketa uzorkovanja malih preduzeća za proučavanje društveni procesi u malom biznisu", sprovedena 1996. godine u nekim regionima Rusije. Jedinice posmatranja (mala preduzeća) odabrane su stručno, uzimajući u obzir zastupljenost privrednih sektora iz već formiranog uzorka istraživanja finansijsko-ekonomskih aktivnosti malih preduzeća. (obrazac „Informacije o osnovnim pokazateljima finansijske i ekonomske aktivnosti malog preduzeća“) Prilikom sumiranja podataka uzorka pretpostavljeno je da je uzorak formiran metodom jednostavnog slučajnog odabira.

direktno upotreba stručnog mišljenja To je najviše opšta metoda namjerno uključivanje jedinica u uzorak. Primjer takve metode odabira je monografska metoda, koji podrazumeva dobijanje informacija samo od jedne jedinice posmatranja, što je tipično, prema rečima organizatora ankete – stručnjaka.

Uzorci zasnovani na odabir smjera, implementiraju se korištenjem objektivne procedure, ali bez korištenja vjerojatnosnog mehanizma. Nadaleko je poznata metoda glavnog niza, u kojoj uzorak uključuje najveće (značajne) jedinice posmatranja koje daju glavni doprinos indikatoru, npr. ukupna vrijednost karakteristika koja predstavlja glavnu svrhu ankete.

U statističkoj praksi se često koristi kombinovani metod statističkog posmatranja. Kombinacija metoda kontinuiranog i selektivnog posmatranja ima dva aspekta:

  • smjena u vremenu;
  • njihova istovremena upotreba (dio populacije se posmatra kontinuirano, a dio - selektivno).

alternacija periodično uzorkovanje sa relativno rijetkim kontinuiranim anketama ili popisima neophodno je da se razjasni sastav proučavane populacije. Ove informacije se zatim koriste kao statističku osnovu selektivno posmatranje. Primjeri su popisi stanovništva i ankete uzoraka domaćinstava između njih.

AT ovaj slučaj potrebni su sljedeći zadaci:

  • – utvrđivanje sastava znakova kontinuiranog posmatranja koji obezbjeđuju organizaciju uzorka;
  • – obrazloženje perioda alternacije, tj. kada kontinuirani podaci više nisu relevantni i potrebni su troškovi za njihovo ažuriranje.

Istovremena upotreba u okviru jednog istraživanja kontinuiranih i uzorkovanih opservacija je zbog heterogenosti populacija koje se susreću u statističkoj praksi. Ovo posebno važi za istraživanja ekonomske aktivnosti skupa preduzeća, koja se odlikuju iskrivljenim distribucijama karakteristika koje se proučavaju, kada određeni broj jedinica ima karakteristike koje se veoma razlikuju od većine vrednosti. U ovom slučaju takve jedinice se posmatraju kontinuirano, a drugi dio populacije selektivno.

Sa ovom organizacijom posmatranja, glavni zadaci su:

  • – uspostavljanje njihove optimalne proporcije;
  • – razvoj metoda za procjenu tačnosti rezultata.

Tipičan primjer koji ilustruje ovaj aspekt aplikacije kombinovana metoda, je opšti princip sprovođenje anketa stanovništva preduzeća, prema kojima se istraživanja stanovništva velikih i srednjih preduzeća sprovode uglavnom kontinuiranom metodom, a mala preduzeća metodom uzorka.

Daljnji razvoj metodologije uzorkovanja odvija se kako u kombinaciji sa organizacijom kontinuiranog posmatranja, tako i kroz organizaciju posebnih istraživanja čije je provođenje diktirano potrebom da se dobije Dodatne informacije za rješavanje konkretnih problema. Dakle, organizacija istraživanja u oblasti uslova i životnog standarda stanovništva predviđena je u dva aspekta:

Obavezne komponente mogu biti godišnja istraživanja prihoda, rashoda i potrošnje (slično anketama o budžetu domaćinstava), koja uključuju i osnovne pokazatelje uslova života stanovništva. Svake godine, prema posebnom planu, obavezne komponente treba dopuniti jednokratnim anketama (modulima) o životnim uslovima stanovništva, u cilju dubinska studija bilo koji izabrani društvena tema Od njih ukupan broj(npr. imovina domaćinstva, zdravlje, ishrana, obrazovanje, uslovi rada, stanovanje, slobodno vreme, socijalna mobilnost, sigurnost i sl.) u različitim intervalima, determinisanim potrebom za indikatorima i resursnim mogućnostima.

Koncept i proračun greške uzorkovanja.

Zadatak selektivnog posmatranja je da da ispravne ideje o zbirnim pokazateljima cjelokupne populacije na osnovu dijela njihovog dijela koji je podvrgnut posmatranju. Moguće odstupanje udjela uzorka i srednje vrijednosti uzorka od udjela i srednje vrijednosti u opštoj populaciji naziva se greška uzorkovanja ili greška reprezentativnosti. Što je veća vrijednost ove greške, indikatori posmatranja uzorka se više razlikuju od onih u općoj populaciji.

razlika:

Greške uzorkovanja;

Greške u registraciji.

Greške u registraciji nastaju kada je činjenica pogrešno utvrđena u procesu posmatranja. One su karakteristične i za kontinuirano i za selektivno posmatranje, ali su manje u selektivnom posmatranju.

Priroda greške je:

Tendenciozno - namjerno, tj. birane su najbolje ili najgore jedinice populacije. U ovom slučaju, zapažanja gube smisao;

Slučajno – glavni organizacioni princip selektivnog posmatranja je sprečavanje namerne selekcije, tj. osigurati striktno poštovanje principa slučajnog odabira.

Opšte pravilo slučajni odabir je: pojedinačne jedinice opšte populacije moraju imati potpuno iste uslove i mogućnosti da uđu u broj jedinica uključenih u uzorak. Ovo karakteriše nezavisnost rezultata uzorka od volje posmatrača. Volja posmatrača stvara tendenciozne greške. Greška uzorkovanja u slučajnom odabiru je slučajni karakter. Karakterizira veličinu odstupanja općih karakteristika od uzorka.

Zbog činjenice da karakteristike u proučavanoj populaciji variraju, sastav jedinica u uzorku se možda neće poklapati sa sastavom jedinica cijele populacije. To znači da R i ne poklapaju se sa W i . Moguća neslaganja između ovih karakteristika određena je greškom uzorkovanja, koja je određena formulom:

gdje - opšta varijansa.

gdje je varijansa uzorka.

Ovo pokazuje od čega se generalna varijansa razlikuje varijansa uzorka na vrijeme.

Postoji ponovljena i neponovljena selekcija. Suština ponovne selekcije je da se svaka jedinica u uzorku, nakon posmatranja, vraća u opštu populaciju i može biti ponovo ispitana. Prilikom ponovnog uzorkovanja izračunava se prosječna greška uzorkovanja:

Za indikator udjela alternativnog atributa, varijansa uzorka određena je formulom:

U praksi se re-selekcija rijetko koristi. At bez ponovnog izbora, veličina populacije N smanjuje se tokom uzorkovanja, formula za prosječnu grešku uzorkovanja za kvantitativni atribut je:



, onda

Jedna od mogućih vrijednosti u kojoj može biti udio proučavane osobine jednaka je:

gdje je greška uzorkovanja alternativne karakteristike.

Primjer.

At uzorak ankete 10% proizvoda serije gotovih proizvoda po metodi bez ponovne selekcije dobilo je sljedeće podatke o sadržaju vlage u uzorcima.

Odrediti prosječnu vlažnost %, varijansu, standardnu ​​devijaciju, sa vjerovatnoćom od 0,954 moguće granice, u kojem očekujemo up. % vlage svih gotovih proizvoda, sa vjerovatnoćom od 0,987 mogućih granica specifična gravitacija standardni proizvodi, pod uslovom da se u nestandardnu ​​seriju nalaze proizvodi sa sadržajem vlage do 13 i iznad 19%.

Samo sa određenom vjerovatnoćom može se tvrditi da opći udio uzorka i opći prosjek srednje vrijednosti uzorka odstupaju u t jednom.

U statistici se ova odstupanja nazivaju marginalne greške uzorkovanja i označeni su.

Vjerovatnoća donošenja presude može se povećati ili smanjiti u t jednom. Sa vjerovatnoćom od 0,683, sa 0,954, sa 0,987, onda su indikatori opšte populacije određeni indikatorima uzorka.

Kao što već znamo, reprezentativnost je svojstvo populacije uzorka da predstavlja karakteristiku opšte populacije. Ako nema podudaranja, govore o grešci reprezentativnosti - mjeri odstupanja statističke strukture uzorka od strukture odgovarajuće opšte populacije. Pretpostavimo da je prosječni mjesečni porodični prihod penzionera u opštoj populaciji 2 hiljade rubalja, au uzorku - 6 hiljada rubalja. To znači da je sociolog intervjuisao samo imućniji dio penzionera, a u njegovu studiju se uvukla greška reprezentativnosti. Drugim riječima, greška reprezentativnosti je nesklad između dva skupa - onog općeg na koji je usmjeren teorijski interes sociologa i ideje o svojstvima koja na kraju želi dobiti, i onog selektivnog. , na koju je usmjeren praktični interes sociologa, koji djeluje i kao predmet ispitivanja i sredstvo za dobivanje informacija o opštoj populaciji.

Uz termin "greška reprezentativnosti" u domaćoj literaturi se može naći još jedan - "greška uzorkovanja". Ponekad se koriste naizmjenično, a ponekad se koristi “greška uzorkovanja” umjesto “greške reprezentativnosti” kao kvantitativno precizniji koncept.

Greška uzorkovanja je odstupanje prosječnih karakteristika populacije uzorka od prosječnih karakteristika opšte populacije.

U praksi se greška uzorkovanja utvrđuje poređenjem poznatih karakteristika populacije sa srednjim vrijednostima uzorka. U sociologiji se u anketama odrasle populacije najčešće koriste podaci iz popisa stanovništva, trenutne statističke evidencije i rezultati prethodnih istraživanja. Socio-demografske karakteristike se obično koriste kao kontrolni parametri. Poređenje prosjeka opće i uzoračke populacije, na osnovu toga, utvrđivanje greške uzorkovanja i njeno smanjenje naziva se kontrola reprezentativnosti. Budući da se na kraju istraživanja može izvršiti poređenje svojih i tuđih podataka, ovaj način kontrole naziva se aposteriori, tj. sprovedeno nakon iskustva.

U Gallupovim anketama, reprezentativnost se kontroliše podacima dostupnim u nacionalnim popisima o distribuciji stanovništva prema polu, starosti, obrazovanju, prihodima, profesiji, rasi, mjestu stanovanja, veličini lokalitet. Sveruski istraživački centar javno mnjenje(VTsIOM) u te svrhe koristi indikatore kao što su spol, starost, obrazovanje, vrsta naselja, bračni status, sfera zaposlenja, službeni status ispitanika, koji su posuđeni od Državnog komiteta za statistiku Ruske Federacije. U oba slučaja populacija je poznata. Greška uzorkovanja se ne može utvrditi ako su vrijednosti varijable u uzorku i populaciji nepoznate.

Tokom analize podataka, stručnjaci VTsIOM osiguravaju temeljnu popravku uzorka kako bi se minimizirala odstupanja do kojih je došlo tokom terenski rad. Naročito jake promjene se primjećuju u pogledu spola i starosti. To se objašnjava činjenicom da žene i osobe sa više obrazovanje provodite više vremena kod kuće i lakše uspostavljajte kontakt sa anketarom; su lako dostupna grupa u poređenju sa muškarcima i ljudima koji su „neobrazovani“35.

Greška uzorkovanja je posljedica dva faktora: metode uzorkovanja i veličine uzorka.

Greške uzorkovanja se dijele na dvije vrste - slučajne i sistematske. Slučajna greška je vjerovatnoća da će srednja vrijednost uzorka (ili neće) premašiti specificirani interval. Slučajne greške uključuju statističke greške koje su svojstvene samoj metodi uzorkovanja. Oni se smanjuju kako se veličina uzorka povećava.

Druga vrsta greške uzorkovanja je sistematska greška. Ako je sociolog odlučio da sazna mišljenje svih stanovnika grada o tome što se dešava lokalne vlasti vlasti u socijalnoj politici, a intervjuisali samo one koji imaju telefon, onda postoji namjerna pristrasnost u uzorku u korist imućnih slojeva, tj. sistematska greška.

Dakle, sistematske greške su rezultat aktivnosti samog istraživača. Oni su najopasniji, jer dovode do prilično značajnih pristrasnosti u rezultatima studije. Sistematske greške se smatraju gorim od slučajnih i zato što se ne mogu kontrolisati i mjeriti.

Nastaju kada, na primjer: 1) uzorak ne ispunjava ciljeve studije (sociolog je odlučio da proučava samo zaposlene penzionere, već je intervjuisao sve redom); 2) postoji nepoznavanje prirode opšte populacije (sociolog je smatrao da 70% svih penzionera ne radi, a ispostavilo se da samo 10% ne radi); 3) biraju se samo „pobednički“ elementi opšte populacije (na primer, samo bogati penzioneri).

Pažnja! Za razliku od slučajnih grešaka, sistematske greške se ne smanjuju sa povećanjem veličine uzorka.

Sumirajući sve slučajeve kada se javljaju sistematske greške, metodolozi su sastavili registar istih. Oni vjeruju da izvor nekontroliranih pristrasnosti u distribuciji opservacija uzorka može biti sledeći faktori:
♦ metodološka i metodološka pravila izvođenja sociološko istraživanje;
♦ odabrane su neadekvatne metode uzorkovanja, prikupljanja podataka i metode izračunavanja;
♦ došlo je do zamjene potrebnih jedinica posmatranja drugim, pristupačnijim;
♦ Uočen je nepotpuni obuhvat populacije uzorka (nedostatak upitnika, nepotpuno popunjavanje upitnika, nedostupnost jedinica posmatranja).

Sociolozi rijetko prave namjerne greške. Češće nego ne, greške nastaju jer sociolog nije dobro svjestan strukture opće populacije: distribucije ljudi po godinama, profesiji, prihodima itd.

Sistematske greške je lakše spriječiti (u poređenju sa slučajnim), ali ih je vrlo teško otkloniti. Sistematske greške je najbolje spriječiti preciznim predviđanjem njihovih izvora unaprijed – na samom početku studije.

Evo nekoliko načina da izbjegnete greške uzorkovanja:
♦ svaka jedinica opšte populacije mora imati jednaku vjerovatnoću da bude uključena u uzorak;
♦ poželjno je birati iz homogenih populacija;
♦ treba poznavati karakteristike opšte populacije;
♦ Slučajne i sistematske greške treba uzeti u obzir prilikom sastavljanja uzorka.

Ako je uzorak (ili samo uzorak) ispravno sastavljen, onda sociolog dobija pouzdane rezultate koji karakterišu čitavu populaciju. Ako je pogrešno sastavljen, onda se greška nastala u fazi uzorkovanja umnožava u svakoj narednoj fazi sociološkog istraživanja i na kraju dostiže vrijednost koja je veća od vrijednosti studije. Kažu da takva istraživanja donose više štete nego koristi.

Takve greške se mogu pojaviti samo sa populacijom uzorka. Da biste izbjegli ili smanjili vjerovatnoću greške, najlakši način je povećati veličinu uzorka (idealno do veličine populacije: kada se obje populacije poklapaju, greška uzorka će potpuno nestati). Ekonomski, ova metoda je nemoguća. Postoji još jedan način - poboljšati se matematičke metode uzorkovanje. Primjenjuju se u praksi. Ovo je prvi kanal prodora u sociologiju matematike. Drugi kanal - matematička obrada podaci.

Posebno važno pitanje greške postaju u marketinškim istraživanjima, gdje se koriste ne baš veliki uzorci. Obično ih čini nekoliko stotina, rjeđe - hiljadu ispitanika. Ovdje je polazna tačka za izračunavanje uzorka pitanje određivanja veličine populacije uzorka. Veličina uzorka zavisi od dva faktora: 1) cene prikupljanja informacija i 2) težnje ka određenom stepenu statistička validnost rezultate za koje se istraživač nada da će dobiti. Naravno, čak i ljudi koji nisu iskusni u statistici i sociologiji intuitivno shvaćaju da što je veći uzorak, tj. što su bliži veličini opće populacije u cjelini, to su dobijeni podaci pouzdaniji i pouzdaniji. Međutim, o praktičnoj nemogućnosti kompletnih istraživanja u onim slučajevima kada se izvode na objektima čiji broj prelazi desetine, stotine hiljada, pa čak i milione, već smo govorili gore. Jasno je da troškovi prikupljanja informacija (uključujući plaćanje za umnožavanje alata, rad upitnika, terenskih menadžera i operatera kompjuterskog unosa) zavise od iznosa koji je kupac spreman da izdvoji, a malo zavisi od istraživača. Što se tiče drugog faktora, na njemu ćemo se zadržati malo detaljnije.

Dakle, što je veća veličina uzorka, to je manja moguća greška. Iako treba napomenuti da ako želite udvostručiti točnost, uzorak ćete morati povećati ne dva, već četiri puta. Na primjer, učiniti duplo više tačna procjena podaci dobijeni intervjuisanjem 400 ljudi, potrebno je da intervjuišete ne 800, već 1600 ljudi. Međutim, malo je vjerovatno da marketinško istraživanje treba 100% tačnost. Ako pivar treba da otkrije koji udio potrošača piva preferira njegovu marku nego brend svoje konkurencije - 60% ili 40%, onda razlika između 57%, 60 ili 63% neće utjecati na njegove planove.

Greška uzorkovanja može zavisiti ne samo od njene veličine, već i od stepena razlika između pojedinačnih jedinica unutar opšte populacije koju proučavamo. Na primjer, ako želimo znati koliko se piva konzumira, onda nalazimo da su u našoj populaciji stope potrošnje za razni ljudi značajno se razlikuju (heterogena opšta populacija). U drugom slučaju ćemo proučiti potrošnju hljeba i to otkriti različiti ljudi razlikuje se mnogo manje značajno (homogena populacija). Što je veća razlika (ili heterogenost) unutar populacije, veća je količina moguće greške uzorkovanja. Ova pravilnost samo potvrđuje ono što je jednostavno zdrav razum. Dakle, kako ispravno kaže V. Yadov, „veličina (volumen) uzorka zavisi od nivoa homogenosti ili heterogenosti objekata koji se proučavaju. Što su homogeniji, manji broj može dati statistički pouzdane zaključke.

Određivanje veličine uzorka zavisi i od nivoa intervala poverenja dozvoljene statističke greške. Ovdje mislimo na takozvane slučajne greške, koje su povezane sa prirodom bilo koje statističke greške. IN AND. Panioto daje sljedeće proračune reprezentativni uzorak uz pretpostavku greške od 5%:
To znači da ako ste nakon anketiranja, recimo, 400 ljudi u okružnom gradu, gdje je odrasla solventna populacija 100 hiljada ljudi, ustanovili da 33% ispitanih kupaca preferira proizvode lokalne fabrike za preradu mesa, onda sa 95 % vjerovatnoće možete reći da su 33+5% (tj. od 28 do 38%) stanovnika ovog grada redovni kupci ovih proizvoda.

Također možete koristiti Gallupove proračune za procjenu omjera veličina uzorka i greške uzorkovanja.