Biografije Karakteristike Analiza

Relativne greške uzorkovanja. Formule uzorka srednje greške

    Formula nivo samopouzdanja prilikom ocjenjivanja općeg noah dio znaka. Srednja kvadratna greška ponovljenih i nema ponovnog uzorkovanja i izgradnje intervala povjerenja za opšti udeo osobine.

  1. Formula povjerenja za procjenu opšteg prosjeka. Srednja kvadratna greška ponovljenih i neponovljenih uzoraka i konstrukcije interval povjerenja za opšti prosek.

Konstrukcija intervala povjerenja za opću srednju vrijednost i opći dio za velike uzorke . Za konstruiranje intervala povjerenja za parametre populacija, m.b. Implementirana su 2 pristupa zasnovana na poznavanju tačne (za datu veličinu uzorka n) ili asimptotičke (kao n → ∞) raspodjele karakteristika uzorka (ili nekih njihovih funkcija). Prvi pristup se dalje implementira kada se konstruišu intervalne procjene parametara za male uzorke. U ovom dijelu razmatramo drugi pristup primjenjiv na velike uzorke (reda stotina opservacija).

Teorema . Uvjerenje da odstupanje srednje vrijednosti uzorka (ili udjela) od opšte srednje vrijednosti (ili udjela) neće premašiti broj Δ > 0 (u apsolutnoj vrijednosti) jednako je:

Gdje

,

Gdje
.

F(t) - Laplaceova funkcija (integral vjerovatnoća).

Formule su imenovane Formule Vert povjerenja za srednju vrijednost i udio .

Standardna devijacija srednje vrijednosti uzorka i udio uzorka zapravo- slučajni uzorak pozvao srednja kvadratna (standardna) greška uzorke (za uzorkovanje koji se ne ponavlja, označavamo, respektivno, i ).

Zaključak 1 . Za dati nivo pouzdanosti γ, granična greška uzorkovanja jednaka je t-strukoj vrijednosti srednje vrijednosti kvadratna greška, gdje je F(t) = γ, tj.

,

.

Posljedica 2 . Intervalne procjene (intervali povjerenja) za opći prosjek i generalne udjele mogu se pronaći pomoću formula:

,

.

  1. Određivanje potrebnog volumena ponovljenih i neponovljenih uzoraka pri procjeni opšteg prosjeka i proporcije.

Za selektivno posmatranje vrlo je važno pravilno postaviti veličinu uzorka n, koja u velikoj mjeri određuje potrebno vrijeme, rad i troškove troškova za određivanje n, potrebno je postaviti pouzdanost (nivo povjerenja) procjene γ i tačnost (granična greška uzorkovanja) Δ.

Ako se pronađe veličina ponovnog uzorkovanja n, tada se veličina odgovarajućeg ponovnog uzorkovanja n" može odrediti formulom:

.

Jer
, tada je za istu tačnost i pouzdanost procjena, veličina neponovljenog uzorka n" uvijek manja od veličine ponovnog uzorka n.

  1. Statistička hipoteza i statistički test. Greške 1. i 2. vrste. Nivo značajnosti i snaga testa. Princip praktične sigurnosti.

Definicija . Statistička hipoteza Zove se svaka pretpostavka o obliku ili parametrima nepoznatog zakona distribucije.

Razlikovati jednostavne i složene statističke hipoteze. jednostavna hipoteza , za razliku od kompleksnog, u potpunosti određuje teorijsku funkciju raspodjele SW.

Obično se naziva hipoteza koja se testira null (ili osnovni ) i označimo H 0 . Kao i Nulta hipoteza razmotriti alternativa , ili nadmetanje , hipoteza H 1 , koja je logička negacija H 0 . Nulta i alternativna hipoteza su 2 izbora napravljena u problemima testiranja statističkih hipoteza.

Suština testiranja statističke hipoteze je da se koristi posebno sastavljena karakteristika uzorka (statistika).
, dobijeno iz uzorka
, čija je tačna ili približna distribucija poznata.

Zatim se prema ovoj raspodjeli uzorka određuje kritična vrijednost - takav da ako je hipoteza H 0 tačna, onda je
mala; tako da u skladu sa principom praktične sigurnosti u uslovima ove studije, događaj
može se (uz određeni rizik) smatrati praktično nemogućim. Stoga, ako se u ovom konkretnom slučaju pronađe odstupanje
, tada se hipoteza H 0 odbacuje, a pojava vrijednosti
, smatra se kompatibilnim sa hipotezom H 0 , koja se tada prihvata (tačnije, ne odbacuje). Poziva se pravilo po kojem se hipoteza H 0 odbacuje ili prihvata statistički kriterijum ili statistički test .

Princip praktične sigurnosti:

Ako je vjerovatnoća događaja A u datom testu vrlo mala, onda sa jednim izvršavanjem testa možete biti sigurni da se događaj A neće dogoditi, a u praksi se ponašati kao da je događaj A uopće nemoguć.

Dakle, skup mogućih vrijednosti statistike - kriterij (kritična statistika) podijeljen je u 2 podskupa koja se ne preklapaju: kritična regija(područje odbacivanja hipoteze) W i raspon tolerancije(područje prihvatanja hipoteze) . Ako je stvarna uočena vrijednost kriterija statistike pada u kritično područje W, tada se hipoteza H 0 odbacuje. Postoje četiri moguća slučaja:

Definicija . Vjerovatnoća α da napravi grešku l-te vrste, tj. poziva se da odbaci hipotezu H 0 kada je tačna nivo značajnosti , ili veličina kriterijuma .

Vjerovatnoća pravljenja greške tipa 2, tj. prihvati hipotezu H 0 kada je netačna, obično se označava kao β.

Definicija . Vjerovatnoća (1-β) da se ne napravi greška tipa 2, tj. poziva se da odbaci hipotezu H 0 kada je netačna moć (ili funkcija snage ) kriterijuma .

Potrebno je dati prednost kritičnom području u kojem će snaga kriterija biti najveća.

Kao što već znamo, reprezentativnost je svojstvo okvir za uzorkovanje predstaviti opis općeg. Ako nema podudaranja, govore o grešci reprezentativnosti - stepenu odstupanja statističke strukture uzorka od strukture odgovarajućeg stanovništva. Pretpostavimo da je prosječni mjesečni porodični prihod penzionera u opštoj populaciji 2 hiljade rubalja, au uzorku - 6 hiljada rubalja. To znači da je sociolog intervjuisao samo imućniji dio penzionera, a u njegovu studiju se uvukla greška reprezentativnosti. Drugim riječima, greška reprezentativnosti je nesklad između dva skupa - onog općeg na koji je usmjeren teorijski interes sociologa i ideje o svojstvima koja na kraju želi dobiti, i onog selektivnog. , na koju je usmjeren praktični interes sociologa, koji djeluje i kao predmet ispitivanja i sredstvo za dobivanje informacija o opštoj populaciji.

Uz termin "greška reprezentativnosti" u domaćoj literaturi se može naći još jedan - "greška uzorkovanja". Ponekad se koriste naizmjenično, a ponekad se koristi “greška uzorkovanja” umjesto “greške reprezentativnosti” kao kvantitativno precizniji koncept.

Greška uzorkovanja je odstupanje prosječnih karakteristika populacije uzorka od prosječnih karakteristika opšte populacije.

U praksi se greška uzorkovanja utvrđuje poređenjem poznatih karakteristika populacije sa srednjim vrijednostima uzorka. U sociologiji se u anketama odrasle populacije najčešće koriste podaci iz popisa stanovništva, trenutne statističke evidencije i rezultati prethodnih istraživanja. Socio-demografske karakteristike se obično koriste kao kontrolni parametri. Poređenje prosjeka opće i uzoračke populacije, na osnovu toga, utvrđivanje greške uzorkovanja i njeno smanjenje naziva se kontrola reprezentativnosti. Budući da se na kraju istraživanja može izvršiti poređenje svojih i tuđih podataka, ovaj način kontrole naziva se aposteriori, tj. sprovedeno nakon iskustva.

U Gallupovim anketama, reprezentativnost se kontrolira podacima dostupnim u nacionalnim popisima o raspodjeli stanovništva prema polu, starosti, obrazovanju, prihodima, profesiji, rasi, mjestu stanovanja, veličini lokalitet. Sveruski istraživački centar javno mnjenje(VTsIOM) u te svrhe koristi indikatore kao što su spol, starost, obrazovanje, vrsta naselja, bračni status, sfera zaposlenja, službeni status ispitanika, koji su posuđeni od Državnog komiteta za statistiku Ruske Federacije. U oba slučaja populacija je poznata. Greška uzorkovanja se ne može utvrditi ako su vrijednosti varijable u uzorku i populaciji nepoznate.

Tokom analize podataka, stručnjaci VTsIOM osiguravaju temeljnu popravku uzorka kako bi se minimizirala odstupanja do kojih je došlo tokom terenski rad. Naročito jake promjene se primjećuju u pogledu spola i starosti. To se objašnjava činjenicom da žene i osobe sa više obrazovanje provodite više vremena kod kuće i lakše uspostavljajte kontakt sa anketarom; su lako dostupna grupa u poređenju sa muškarcima i ljudima koji su „neobrazovani“35.

Greška uzorkovanja je posljedica dva faktora: metode uzorkovanja i veličine uzorka.

Greške uzorkovanja se dijele na dvije vrste - slučajne i sistematske. Slučajna greška je vjerovatnoća da će srednja vrijednost uzorka (ili neće) pasti izvan datog intervala. Slučajne greške uključuju statističke greške koje su svojstvene samoj metodi uzorkovanja. Oni se smanjuju kako se veličina uzorka povećava.

Druga vrsta greške uzorkovanja je sistematske greške. Ako je sociolog odlučio da sazna mišljenje svih stanovnika grada o tome što se dešava lokalne vlasti vlasti u socijalnoj politici, a intervjuisali samo one koji imaju telefon, onda postoji namjerna pristrasnost u uzorku u korist imućnih slojeva, tj. sistematska greška.

Dakle, sistematske greške su rezultat aktivnosti samog istraživača. Oni su najopasniji, jer dovode do prilično značajnih pristrasnosti u rezultatima studije. Sistematske greške se smatraju gorim od slučajnih i zato što se ne mogu kontrolisati i mjeriti.

Nastaju kada, na primer: 1) uzorak ne ispunjava ciljeve studije (sociolog je odlučio da proučava samo zaposlene penzionere, već je intervjuisao sve redom); 2) postoji nepoznavanje prirode opšte populacije (sociolog je smatrao da 70% svih penzionera ne radi, a ispostavilo se da samo 10% ne radi); 3) biraju se samo „pobednički“ elementi opšte populacije (na primer, samo bogati penzioneri).

Pažnja! Za razliku od slučajnih grešaka, sistematske greške se ne smanjuju sa povećanjem veličine uzorka.

Sumirajući sve slučajeve kada se javljaju sistematske greške, metodolozi su sastavili registar istih. Oni vjeruju da izvor nekontroliranih pristrasnosti u distribuciji opservacija uzorka može biti sledeći faktori:
♦ metodološka i metodološka pravila izvođenja sociološka istraživanja;
♦ odabrane su neadekvatne metode uzorkovanja, prikupljanja podataka i metode izračunavanja;
♦ došlo je do zamjene potrebnih jedinica posmatranja drugim, pristupačnijim;
♦ Uočen je nepotpuni obuhvat populacije uzorka (nedostatak upitnika, nepotpuno popunjavanje upitnika, nedostupnost jedinica posmatranja).

Sociolozi rijetko prave namjerne greške. Češće nego ne, greške nastaju jer sociolog nije dobro svjestan strukture opće populacije: distribucije ljudi po godinama, profesiji, prihodima itd.

Sistematske greške je lakše spriječiti (u poređenju sa slučajnim), ali ih je vrlo teško otkloniti. Sistematske greške je najbolje spriječiti preciznim predviđanjem njihovih izvora unaprijed – na samom početku studije.

Evo nekoliko načina da izbjegnete greške uzorkovanja:
♦ svaka jedinica opšte populacije mora imati jednaku vjerovatnoću da bude uključena u uzorak;
♦ poželjno je birati iz homogenih populacija;
♦ treba poznavati karakteristike opšte populacije;
♦ Slučajne i sistematske greške treba uzeti u obzir prilikom sastavljanja uzorka.

Ako je uzorak (ili samo uzorak) ispravno sastavljen, onda sociolog dobija pouzdane rezultate koji karakterišu čitavu populaciju. Ako je pogrešno sastavljen, onda se greška koja je nastala u fazi sastavljanja uzorka umnožava u svakoj narednoj fazi sociološke studije i na kraju dostiže vrijednost koja je veća od vrijednosti studije. Kažu da takva istraživanja donose više štete nego koristi.

Takve greške se mogu pojaviti samo sa populacijom uzorka. Da biste izbjegli ili smanjili vjerovatnoću greške, najlakši način je povećati veličinu uzorka (idealno do veličine populacije: kada se obje populacije poklapaju, greška uzorka će potpuno nestati). Ekonomski, ova metoda je nemoguća. Postoji još jedan način - poboljšati se matematičke metode uzorkovanje. Primjenjuju se u praksi. Ovo je prvi kanal prodora u sociologiju matematike. Drugi kanal - matematička obrada podaci.

Posebno važno pitanje greške postaju u marketinškim istraživanjima, gdje se koriste ne baš veliki uzorci. Obično ih čini nekoliko stotina, rjeđe - hiljadu ispitanika. Ovdje je polazna tačka za izračunavanje uzorka pitanje određivanja veličine populacije uzorka. Veličina uzorka zavisi od dva faktora: 1) cene prikupljanja informacija i 2) težnje ka određenom stepenu statistička validnost rezultate za koje se istraživač nada da će dobiti. Naravno, čak i ljudi koji nisu iskusni u statistici i sociologiji intuitivno shvaćaju da što je veći uzorak, tj. što su bliži veličini opće populacije u cjelini, to su dobijeni podaci pouzdaniji i pouzdaniji. Međutim, o praktičnoj nemogućnosti kompletnih istraživanja u onim slučajevima kada se izvode na objektima čiji broj prelazi desetine, stotine hiljada, pa čak i milione, već smo govorili gore. Jasno je da troškovi prikupljanja informacija (uključujući plaćanje za umnožavanje alata, rad upitnika, terenskih menadžera i operatera kompjuterskog unosa) zavise od iznosa koji je kupac spreman da izdvoji, a malo zavisi od istraživača. Što se tiče drugog faktora, na njemu ćemo se zadržati malo detaljnije.

Dakle, što je veća veličina uzorka, to je manja moguća greška. Iako treba napomenuti da ako želite udvostručiti točnost, uzorak ćete morati povećati ne dva, već četiri puta. Na primjer, učiniti duplo više tačna procjena podaci dobijeni intervjuisanjem 400 ljudi, potrebno je da intervjuišete ne 800, već 1600 ljudi. Međutim, malo je vjerovatno da marketinško istraživanje treba 100% tačnost. Ako pivar treba da otkrije koji udio potrošača piva preferira njegovu marku nego brend svoje konkurencije - 60% ili 40%, onda razlika između 57%, 60 ili 63% neće utjecati na njegove planove.

Greška uzorkovanja može zavisiti ne samo od njene veličine, već i od stepena razlika između pojedinačnih jedinica unutar opšte populacije koju proučavamo. Na primjer, ako želimo znati koliko se piva konzumira, onda nalazimo da su u našoj populaciji stope potrošnje za razni ljudi značajno se razlikuju (heterogena opšta populacija). U drugom slučaju ćemo proučiti potrošnju hljeba i to otkriti različiti ljudi razlikuje se mnogo manje značajno (homogena populacija). Što je veća razlika (ili heterogenost) unutar opšte populacije, to je veća vrijednost moguća greška uzorci. Ova pravilnost samo potvrđuje ono što je jednostavno zdrav razum. Dakle, kako ispravno kaže V. Yadov, „veličina (volumen) uzorka zavisi od nivoa homogenosti ili heterogenosti proučavanih objekata. Što su homogeniji, manji broj može dati statistički pouzdane zaključke.

Određivanje veličine uzorka zavisi i od nivoa intervala poverenja dozvoljene statističke greške. Ovdje mislimo na takozvane slučajne greške, koje su povezane sa prirodom bilo koje statističke greške. IN AND. Panioto daje sljedeće proračune reprezentativni uzorak uz pretpostavku greške od 5%:
To znači da ako ste nakon anketiranja, recimo, 400 ljudi u okružnom gradu, gdje je odrasla solventna populacija 100 hiljada ljudi, ustanovili da 33% ispitanih kupaca preferira proizvode lokalne fabrike za preradu mesa, onda sa 95 % vjerovatnoće možete reći da su redovni kupci ovih proizvoda 33 + 5% (tj. od 28 do 38%) stanovnika ovog grada.

Također možete koristiti Gallupove proračune za procjenu omjera veličina uzorka i greške uzorkovanja.

Selektivno posmatranje

Koncept selektivnog posmatranja

Metoda uzorkovanja koristi se kada je korištenje kontinuiranog promatranja fizički nemoguće zbog ogromne količine podataka ili nije ekonomski izvodljivo. Fizička nemogućnost se javlja, na primjer, kada se proučavaju putnički tokovi, tržišne cijene, porodični budžeti. Ekonomska nesvrsishodnost javlja se pri procjeni kvaliteta robe koja je povezana s njihovim uništenjem. Na primjer, degustacija, testiranje cigle na čvrstoću, itd. Selektivno posmatranje se takođe koristi za testiranje rezultata kontinuiranog posmatranja.

Statističke jedinice odabrane za posmatranje su selektivno agregat ili uzorak, i ceo niz - general set (GS). Broj jedinica u uzorku je označen P,širom HS N. Stav n/n naziva se relativna veličina ili uzorak udjela.

Kvaliteta rezultata uzorkovanja ovisi o reprezentativnost uzorci, tj. o tome koliko je reprezentativan u HS-u. Da bi se osigurala reprezentativnost uzorka, potrebno je poštovati princip slučajnog odabira jedinica, koji pretpostavlja da na uključivanje HS jedinice u uzorak ne može uticati nijedan drugi faktor osim slučajnosti.

Metode uzorkovanja

1. Zapravo nasumično odabir: sve HS jedinice su numerisane i izvučeni brojevi odgovaraju jedinicama u uzorku, pri čemu je broj brojeva jednak planiranoj veličini uzorka. U praksi se umjesto žrijebanja koriste generatori slučajni brojevi. Ova metoda izbor može biti ponovljeno(kada se svaka jedinica odabrana u uzorku vrati u HS nakon promatranja i može se ponovno ispitati) i neponovljeno(kada se ispitane jedinice u HS ne vraćaju i ne mogu se ponovo pregledati). Kod ponovljenog odabira, vjerovatnoća ulaska u uzorak za svaku jedinicu HS ostaje nepromijenjena, a kod neponovljive selekcije se mijenja (povećava), ali za preostale u HS nakon što se iz njega odabere nekoliko jedinica, vjerovatnoća ulazak u uzorak je isti.



2. Mehanički odabir: jedinice stanovništva se biraju sa konstantnim korakom N / A. Dakle, ako sadrži opštu populaciju od 100 hiljada jedinica, a potrebno je odabrati 1 hiljadu jedinica, onda će svaka stota jedinica upasti u uzorak.

3. slojevito(stratifikovana) selekcija se vrši iz heterogene opšte populacije, kada se ona prethodno podeli na homogene grupe, nakon čega se odabir jedinica iz svake grupe u populaciji uzorka vrši nasumično ili mehanički srazmjerno njihovom broju u općoj populaciji.

4. Serial(ugniježđeni) odabir: nasumično ili mehanički, ne biraju se pojedinačne jedinice, već određene serije (gnijezda), unutar kojih se vrši kontinuirano posmatranje.

Prosječna greška uzorkovanja

Nakon završetka odabira potrebnog broja jedinica u uzorku i registracije karakteristika ovih jedinica predviđenih programom posmatranja, pristupa se obračunu generalizujućih indikatora. Oni uključuju prosječna vrijednost osobine koja se proučava i udio jedinica koje imaju neku vrijednost ove osobine. Međutim, ako HS napravi nekoliko uzoraka, pri određivanju njihovih generalizirajućih karakteristika, tada se može utvrditi da će njihove vrijednosti biti različite, osim toga, razlikovat će se od njihove stvarne vrijednosti u HS, ako se to utvrdi kontinuiranim promatranjem . Drugim riječima, generalizirajuće karakteristike izračunate iz podataka uzorka će se razlikovati od njihovih stvarnih vrijednosti u HS, pa uvodimo sljedeće simbole (Tablica 8).

Tabela 8 konvencije

Razlika između vrijednosti generalizirajućih karakteristika uzorka i opće populacije naziva se greška uzorkovanja, koji se deli na greške registracija i greška reprezentativnost. Prvi nastaje zbog netačnih ili netačnih podataka zbog nerazumijevanja suštine pitanja, nepažnje matičara prilikom popunjavanja upitnika, obrazaca i sl. Prilično je lako otkriti i popraviti. Drugi proizlazi iz nepoštovanja principa slučajnog odabira jedinica u uzorku. Teže ga je otkriti i eliminisati, mnogo je veći od prvog i stoga je njegovo mjerenje glavni zadatak selektivnog posmatranja.

Za mjerenje greške uzorkovanja, njena prosječna greška je određena formulom (39) za ponovna selekcija a prema formuli (40) - za neponavljanje:

= ;(39) = . (40)

Iz formula (39) i (40) se vidi da je prosječna greška manja za uzorak koji se ne ponavlja, što određuje njegovu širu primjenu.

Koncept i proračun greške uzorkovanja.

Zadatak selektivnog posmatranja je da na osnovu nekog dela koji je podvrgnut posmatranju da ispravne ideje o sumarnim pokazateljima celokupne populacije. Moguće odstupanje udjela uzorka i srednje vrijednosti uzorka od udjela i srednje vrijednosti u opštoj populaciji naziva se greška uzorkovanja ili greška reprezentativnosti. Što je veća vrijednost ove greške, indikatori posmatranja uzorka se više razlikuju od onih u općoj populaciji.

razlika:

Greške uzorkovanja;

Greške u registraciji.

Greške u registraciji nastaju kada je činjenica pogrešno utvrđena u procesu posmatranja. One su karakteristične i za kontinuirano i za selektivno posmatranje, ali su manje u selektivnom posmatranju.

Priroda greške je:

Tendenciozno - namjerno, tj. birane su najbolje ili najgore jedinice populacije. U ovom slučaju, zapažanja gube smisao;

Slučajno – glavni organizacioni princip selektivnog posmatranja je sprečavanje namerne selekcije, tj. osigurati striktno poštovanje principa slučajnog odabira.

Opšte pravilo slučajni odabir je: pojedinačne jedinice opšte populacije moraju imati potpuno iste uslove i mogućnosti da uđu u broj jedinica uključenih u uzorak. Ovo karakteriše nezavisnost rezultata uzorka od volje posmatrača. Volja posmatrača stvara tendenciozne greške. Greška uzorkovanja u slučajnom odabiru je slučajni karakter. Karakterizira veličinu odstupanja općih karakteristika od uzorka.

Zbog činjenice da karakteristike u proučavanoj populaciji variraju, sastav jedinica u uzorku se možda neće poklapati sa sastavom jedinica cijele populacije. To znači da R i ne poklapaju se sa W i . Moguća neslaganja između ovih karakteristika određena je greškom uzorkovanja, koja je određena formulom:

gdje - opšta varijansa.

gdje je varijansa uzorka.

Ovo pokazuje od čega se generalna varijansa razlikuje varijansa uzorka na vrijeme.

Postoji ponovljena i neponovljena selekcija. Suština ponovne selekcije je da se svaka jedinica u uzorku, nakon posmatranja, vraća u opštu populaciju i može biti ponovo ispitana. Prilikom ponovnog uzorkovanja izračunava se prosječna greška uzorkovanja:

Za indikator udjela alternativnog atributa, varijansa uzorka određena je formulom:

U praksi se re-selekcija rijetko koristi. Uz nerepetitivnu selekciju, veličina opće populacije N smanjuje se tokom uzorkovanja, formula prosečna greška uzorci za kvantitativno svojstvo izgleda kao:



, onda

Jedna od mogućih vrijednosti u kojoj može biti udio proučavane osobine jednaka je:

gdje je greška uzorkovanja alternativne karakteristike.

Primjer.

Prilikom uzorkovanja 10% proizvoda serije gotovih proizvoda po metodi bez ponovne selekcije dobijeni su sljedeći podaci o sadržaju vlage u uzorcima.

Odredite prosječnu vlažnost %, varijansu, prosjek standardna devijacija, sa vjerovatnoćom od 0,954 moguće granice, u kojem očekujemo up. % vlage svih gotovih proizvoda, sa vjerovatnoćom od 0,987 mogućih granica specifična gravitacija standardni proizvodi, pod uslovom da se u nestandardnu ​​seriju nalaze proizvodi sa sadržajem vlage do 13 i iznad 19%.

Samo sa određenom vjerovatnoćom može se tvrditi da opći udio uzorka i opći prosjek srednje vrijednosti uzorka odstupaju u t jednom.

U statistici se ova odstupanja nazivaju marginalne greške uzorkovanja i označeni su.

Vjerovatnoća donošenja presude može se povećati ili smanjiti u t jednom. Sa vjerovatnoćom od 0,683, sa 0,954, sa 0,987, onda su indikatori opšte populacije određeni indikatorima uzorka.

Prosječna greška uzorkovanja pokazuje koliko parametar populacije uzorka u prosjeku odstupa od odgovarajućeg parametra opšte populacije. Ako izračunamo prosjek grešaka svih mogućih uzoraka određene vrste dati volumen ( n) izdvojene iz iste opće populacije, onda dobijamo njihovu generalizirajuću karakteristiku - srednja greška uzorkovanja ().

U teoriji selektivnog promatranja, formule za određivanje , koje su individualne za Različiti putevi odabir (ponovljeni i neponovljeni), vrste korištenih uzoraka i vrste procijenjenih statističkih indikatora.

Na primjer, ako se koristi ponovljeno nasumično uzorkovanje, onda se ono definira kao:

Prilikom procjene srednje vrijednosti karakteristike;

Ako je znak alternativni, a udio se procjenjuje.

U slučaju neponovljenog slučajnog odabira, formule se mijenjaju (1 - n/N):

- za srednju vrijednost atributa;

- za dionicu.

Vjerovatnoća dobijanja upravo takve vrijednosti greške uvijek je jednaka 0,683. U praksi je poželjno dobiti podatke sa većom vjerovatnoćom, ali to dovodi do povećanja veličine greške uzorkovanja.

marginalna greška uzorkovanje () je jednako t puta broja prosječnih grešaka uzorkovanja (u teoriji uzorkovanja uobičajeno je koeficijent t nazvati koeficijentom povjerenja):

Ako se greška uzorkovanja udvostruči (t = 2), onda dobijamo mnogo veću vjerovatnoću da neće preći određenu granicu (u našem slučaju dvostruku prosječnu grešku) - 0,954. Ako uzmemo t = 3, tada će nivo pouzdanosti biti 0,997 - praktički sigurnost.

Nivo marginalne greške uzorkovanja ovisi o sljedećim faktorima:

  • stepen varijacije jedinica opšte populacije;
  • veličina uzorka;
  • odabrane šeme selekcije (neponovljiva selekcija daje manju vrijednost greške);
  • nivo samopouzdanja.

Ako je veličina uzorka veća od 30, tada se vrijednost t određuje iz tabele normalna distribucija, ako je manje - prema Studentovoj tabeli raspodjele.

Evo nekih vrijednosti koeficijenta pouzdanosti iz tablice normalne distribucije.

Interval pouzdanosti za srednju vrijednost atributa i za udio u općoj populaciji postavljen je na sljedeći način:

Dakle, definicija granica opšteg prosjeka i udjela sastoji se od sljedećih koraka:

Greške uzorkovanja na razne vrste izbor

  1. Zapravo nasumično i mehaničko uzorkovanje. Prosječna greška stvarnog slučajnog i mehaničkog uzorkovanja nalazi se korištenjem formula prikazanih u tabeli. 11.3.

Primjer 11.2. Za proučavanje nivoa prinosa na sredstva sprovedena je anketa uzorka 90 preduzeća od 225 metodom slučajnog ponovnog uzorkovanja, na osnovu čega su dobijeni podaci prikazani u tabeli.

U ovom primjeru imamo uzorak od 40% (90:225 = 0,4 ili 40%). Odredimo njegovu marginalnu grešku i granice za prosječnu vrijednost osobine u opštoj populaciji koracima algoritma:

  1. Na osnovu rezultata ankete uzorka izračunavamo srednju vrijednost i varijansu u populaciji uzorka:
Tabela 11.5.
Rezultati posmatranja Procijenjene vrijednosti
povrat na sredstva, rub., x i broj preduzeća, f i sredina intervala, x i \xb4 x i \xb4 f i x i \xb4 2 f i
Do 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 i novije 14 2,3 32,2 74,06
Ukupno 90 - 162,6 303,62

Uzorak srednji

Varijanca uzorka ispitivane osobine

Za naše podatke definiramo marginalnu grešku uzorkovanja, na primjer, sa vjerovatnoćom od 0,954. Prema tabeli vrijednosti vjerovatnoće funkcije normalne distribucije (pogledajte izvod iz nje dat u Dodatku 1), nalazimo vrijednost koeficijenta pouzdanosti t koja odgovara vjerovatnoći od 0,954. Sa vjerovatnoćom od 0,954, koeficijent t je 2.

Dakle, u 954 slučaja od 1000, prosječni povrat na imovinu neće premašiti 1,88 rubalja. i ne manje od 1,74 rubalja.

Iznad je korištena ponovljena shema slučajnog odabira. Pogledajmo da li se rezultati ankete mijenjaju ako pretpostavimo da je selekcija obavljena prema šemi selekcije bez ponavljanja. U ovom slučaju, prosječna greška se izračunava pomoću formule

Tada će, s vjerovatnoćom jednakom 0,954, granična greška uzorkovanja biti:

Granice pouzdanosti za srednju vrijednost karakteristike u slučaju nerepetitivnog slučajnog odabira imat će sljedeće vrijednosti:

Uspoređujući rezultate dvije šeme selekcije, možemo zaključiti da korištenje nerepetitivnog slučajnog uzorkovanja daje više tačne rezultate u poređenju sa primjenom ponovljene selekcije na istom nivou pouzdanosti. Istovremeno, što je veća veličina uzorka, to su granice srednjih vrijednosti značajnije suže kada se prelazi s jedne šeme selekcije na drugu.

Prema primjeru, određujemo granice udjela preduzeća s povratom na imovinu koja ne prelazi 2,0 rublje u općoj populaciji:

  1. Izračunajmo stopu uzorkovanja.

Broj preduzeća u uzorku sa povratom na sredstva ne većim od 2,0 rublje je 60 jedinica. Onda

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. izračunati varijansu udjela u populaciji uzorka
  1. prosječna greška uzorkovanja pri korištenju re-scheme selekcija će biti

Ako pretpostavimo da je korištena shema selekcije koja se ne ponavlja, tada će prosječna greška uzorkovanja, uzimajući u obzir korekciju za konačnost populacije, biti

  1. postavljamo vjerovatnoću povjerenja i određujemo graničnu grešku uzorkovanja.

Sa vrijednošću vjerovatnoće P = 0,997, prema tablici normalne distribucije, dobijamo vrijednost za koeficijent pouzdanosti t = 3 (pogledati izvod iz njega dat u Dodatku 1):

Dakle, sa vjerovatnoćom od 0,997, može se tvrditi da u opštoj populaciji udio preduzeća sa povratom na sredstva koja ne prelazi 2,0 rublje nije manji od 54,7% i ne veći od 78,7%.

  1. Tipičan uzorak. Sa tipičnim uzorkom, opšta populacija objekata se deli na k grupa

N 1 + N 2 + ... + N i + ... + N k = N.

Obim jedinica izdvojenih iz svake tipične grupe zavisi od usvojene metode selekcije; njima ukupno formira potrebnu veličinu uzorka

n 1 + n 2 + … + n i + … + n k = n.

Postoje sljedeća dva načina organiziranja selekcije unutar tipične grupe: proporcionalno obimu tipičnih grupa i proporcionalno stupnju fluktuacije vrijednosti atributa u jedinicama posmatranja u grupama. Razmotrite prvu od njih, kao najčešće korištenu.

Odabir proporcionalan veličini tipičnih grupa pretpostavlja da će u svakoj od njih biti odabrana sljedeći broj jedinice stanovništva:

n = n i N i /N

gdje je n i broj jedinica koje se mogu izdvojiti za uzorak iz i-te tipične grupe;

n je ukupna veličina uzorka;

N i - broj jedinica opšte populacije koje su činile i-tu tipičnu grupu;

N je ukupan broj jedinica u općoj populaciji.

Odabir jedinica unutar grupa odvija se u obliku slučajnog ili mehaničkog uzorkovanja.

Formule za procjenu srednje greške uzorkovanja za srednju vrijednost i udio prikazane su u tabeli. 11.6.

Evo prosjeka grupne varijanse tipične grupe.

Primjer 11.3. Sprovedeno je selektivno istraživanje studenata na jednom od moskovskih univerziteta kako bi se utvrdio indikator prosječnog pohađanja univerzitetske biblioteke od strane jednog studenta po semestru. Za to je korišten 5% neponovljeni tipični uzorak, čije tipične grupe odgovaraju broju kursa. Pri odabiru, proporcionalno obimu tipičnih grupa, dobijeni su sljedeći podaci:

Tabela 11.7.
Broj kursa Ukupno studenata, osoba, N i Ispitano kao rezultat selektivnog posmatranja, ljudi, n i Prosječan broj posjeta biblioteci po studentu po semestru, x i Varijanca unutargrupnog uzorka,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Ukupno 2 550 128 8 -

Broj polaznika koji se ispituju na svakom predmetu izračunava se na sljedeći način:

slično za druge grupe:

Raspodjela srednjih vrijednosti uzorka uvijek ima normalan zakon distribucija (ili joj se približava) za n > 100, bez obzira na prirodu distribucije stanovništva. Međutim, u slučaju malih uzoraka, primjenjuje se drugačiji zakon raspodjele – Studentova raspodjela. U ovom slučaju, koeficijent pouzdanosti se nalazi prema Studentovoj tabeli t-distribucije, u zavisnosti od vrijednosti vjerovatnoće pouzdanosti P i veličine uzorka n. Dodatak 1 daje fragment Studentove tabele t-distribucije, predstavljen kao zavisnost vjerovatnoće povjerenja na veličinu uzorka i koeficijenta povjerenja t.

Primjer 11.4. Pretpostavimo da je uzorak ankete osam studenata akademije pokazao da je to u pripremi za kontrolni rad prema statističkim podacima potrošili su sljedeći broj sati: 8,5; 8.0; 7.8; 9.0; 7.2; 6.2; 8.4; 6.6.

Primjer 11.5. Izračunajmo koliko od 507 industrijska preduzeća poreska uprava treba provjeriti da bi se utvrdio udio preduzeća sa poreskim prekršajima sa vjerovatnoćom od 0,997. Prema prethodnom sličnom istraživanju, vrijednost standardne devijacije iznosila je 0,15; očekuje se da veličina greške uzorkovanja ne bude veća od 0,05.

Kada koristite ponovljeni slučajni odabir, provjerite

Kod slučajnog odabira koji se ne ponavlja, bit će potrebno provjeriti

Kao što možete vidjeti, korištenje nerepetitivnog uzorkovanja vam omogućava da mnogo provodite anketu manje objekata.

Primjer 11.6. Planirano je istraživanje plate u preduzećima industrije metodom slučajnog nerepetitivnog odabira. Kolika bi trebala biti veličina uzorka ako je u vrijeme istraživanja broj zaposlenih u industriji bio 100.000 ljudi? Granična greška uzorkovanja ne bi trebala prelaziti 100 rubalja. sa vjerovatnoćom od 0,954. Na osnovu rezultata prethodnih istraživanja plata u industriji, poznato je da je standardna devijacija 500 rubalja.

Stoga je za rješavanje problema potrebno u uzorak uključiti najmanje 100 ljudi.