Biografije Karakteristike Analiza

Razina granične pogreške uzorkovanja. Izračun prosječnih i maksimalnih pogrešaka uzorkovanja za različite vrste odabira

Statistička populacija- skup jedinica koje imaju masu, tipičnost, kvalitativnu homogenost i prisutnost varijacija.

Statistička populacija sastoji se od materijalno postojećih objekata (Zaposlenici, poduzeća, zemlje, regije), objekt je.

Jedinica populacije— svaka specifična jedinica statističke populacije.

Ista statistička populacija može biti homogena po jednom obilježju, a heterogena po drugom.

Kvalitativna ujednačenost- sličnost svih jedinica populacije po jednoj osnovi i različitost po svim ostalim.

U statističkoj populaciji, razlike između jedne i druge jedinice populacije često su kvantitativne prirode. Kvantitativne promjene u vrijednostima obilježja različitih jedinica populacije nazivaju se varijacije.

Varijacija osobine- kvantitativna promjena obilježja (za kvantitativno obilježje) tijekom prijelaza iz jedne jedinice populacije u drugu.

Znak- ovo je svojstvo, karakteristično svojstvo ili drugo svojstvo jedinica, predmeta i pojava koje se mogu promatrati ili mjeriti. Znakovi se dijele na kvantitativne i kvalitativne. Raznolikost i varijabilnost vrijednosti nekog obilježja u pojedinim jedinicama populacije naziva se varijacija.

Atributna (kvalitativna) obilježja ne mogu se izraziti brojčano (sastav stanovništva prema spolu). Kvantitativna obilježja imaju brojčani izraz (sastav stanovništva prema starosti).

Indeks- ovo je generalizirajuća kvantitativna i kvalitativna karakteristika bilo kojeg svojstva jedinica ili populacije u cjelini u određenim uvjetima vremena i mjesta.

Kartica rezultata je skup pokazatelja koji sveobuhvatno odražavaju fenomen koji se proučava.

Na primjer, proučava se plaća:
  • Znak - plaće
  • Statistička populacija - svi zaposleni
  • Jedinica populacije je svaki zaposlenik
  • Kvalitativna homogenost - obračunate plaće
  • Varijacija znaka - niz brojeva

Populacija i uzorak iz nje

Osnova je skup podataka dobivenih kao rezultat mjerenja jednog ili više obilježja. Stvarno promatrani skup objekata, statistički predstavljen nizom promatranja slučajne varijable, je uzorkovanje, a hipotetski postojeće (konjekturno) - opća populacija. Populacija može biti konačna (broj opažanja N = konst) ili beskonačno ( N = ∞), a uzorak iz populacije uvijek je rezultat ograničenog broja promatranja. Broj opažanja koja čine uzorak naziva se veličina uzorka. Ako je veličina uzorka dovoljno velika ( n → ∞) uzima se u obzir uzorak velik, inače se naziva uzorkovanje ograničeni volumen. Uzima se u obzir uzorak mali, ako pri mjerenju jednodimenzionalne slučajne varijable veličina uzorka ne prelazi 30 ( n<= 30 ), a kod više mjerenja istovremeno ( k) značajke u višedimenzionalnom prostoru odnosa n Do k ne prelazi 10 (n/k< 10) . Uzorak obrazaca varijacijske serije, ako su njegovi članovi redna statistika, tj. vrijednosti uzorka slučajne varijable x poredane uzlaznim redoslijedom (rangirane), nazivaju se vrijednosti obilježja opcije.

Primjer. Gotovo isti nasumično odabrani skup objekata - poslovnih banaka jednog administrativnog okruga Moskve, može se smatrati uzorkom iz opće populacije svih komercijalnih banaka u ovom okrugu, te kao uzorak iz opće populacije svih poslovnih banaka u Moskvi , kao i uzorak iz komercijalnih banaka u zemlji itd.

Osnovne metode organiziranja uzorkovanja

Pouzdanost statističkih zaključaka i smislena interpretacija rezultata ovisi o reprezentativnost uzoraka, tj. cjelovitost i primjerenost zastupljenosti svojstava opće populacije u odnosu na koje se ovaj uzorak može smatrati reprezentativnim. Proučavanje statističkih svojstava populacije može se organizirati na dva načina: korištenjem stalan I nije kontinuirano. Kontinuirano promatranje predviđa ispitivanje svih jedinice studirao totalitet, A djelomično (selektivno) promatranje- samo njegovi dijelovi.

Postoji pet glavnih načina organiziranja promatranja uzoraka:

1. jednostavan slučajni odabir, u kojem se objekti nasumično biraju iz populacije objekata (na primjer, pomoću tablice ili generatora slučajnih brojeva), pri čemu svaki od mogućih uzoraka ima jednaku vjerojatnost. Takvi se uzorci nazivaju zapravo nasumično;

2. jednostavan odabir uobičajenim postupkom provodi se mehaničkom komponentom (primjerice datum, dan u tjednu, broj stana, slova abecede itd.), a tako dobiveni uzorci nazivaju se mehanički;

3. stratificiran selekcija se sastoji u tome da se opća populacija volumena podijeli na subpopulacije ili slojeve (stratume) volumena tako da . Stratumi su homogeni objekti u smislu statističkih karakteristika (npr. stanovništvo je podijeljeno na stratume prema dobnim skupinama ili društvenoj klasi; poduzeća prema djelatnostima). U ovom slučaju, uzorci se pozivaju stratificiran(inače, stratificiran, tipičan, regionaliziran);

4. metode serijski odabir se koriste za formiranje serijski ili uzorci gnijezda. Pogodni su ako je potrebno pregledati "blok" ili niz objekata odjednom (na primjer, seriju robe, proizvode određene serije ili stanovništvo teritorijalno-administrativne podjele zemlje). Odabir serija može se izvršiti čisto nasumično ili mehanički. U tom slučaju provodi se kompletan pregled određene serije robe, ili cijele teritorijalne cjeline (stambene zgrade ili bloka);

5. kombinirani(stupnjevit) odabir može kombinirati nekoliko metoda odabira odjednom (na primjer, stratificirani i slučajni ili slučajni i mehanički); takav se uzorak naziva kombinirani.

Vrste selekcije

Po um razlikuju se individualni, skupni i kombinirani odabir. Na individualni odabir pojedine jedinice opće populacije odabiru se u uzorak populacije, sa odabir grupe- kvalitativno homogene skupine (nizovi) jedinica, i kombinirani odabir uključuje kombinaciju prvog i drugog tipa.

Po metoda izdvaja se selekcija ponovljeni i neponovljivi uzorak.

Neponovljivo selekcija u kojoj se jedinica uključena u uzorak ne vraća u izvornu populaciju i ne sudjeluje u daljnjoj selekciji; dok je broj jedinica u općoj populaciji N smanjuje se tijekom procesa selekcije. Na ponovljeno izbor zatečen u uzorku se jedinica nakon registracije vraća u opću populaciju i time zadržava jednaku mogućnost, zajedno s ostalim jedinicama, da se koristi u daljnjem postupku selekcije; dok je broj jedinica u općoj populaciji N ostaje nepromijenjen (metoda se rijetko koristi u socio-ekonomskim istraživanjima). Međutim, s velikim N (N → ∞) formule za ponovljiv izbor se približava onima za ponovljeno odabir i potonji se praktički češće koriste ( N = konst).

Glavne karakteristike parametara opće populacije i uzorka

Statistički zaključci studije temelje se na distribuciji slučajne varijable i promatranim vrijednostima (x 1, x 2, ..., x n) nazivaju se realizacijama slučajne varijable x(n je veličina uzorka). Distribucija slučajne varijable u općoj populaciji je teorijske, idealne prirode, a njen uzorak uzorka je empirijski distribucija. Neke teorijske distribucije specificirane su analitički, tj. njihov opcije odrediti vrijednost funkcije distribucije u svakoj točki u prostoru mogućih vrijednosti slučajne varijable. Za uzorak je distribucijsku funkciju teško, a ponekad i nemoguće odrediti opcije procjenjuju se iz empirijskih podataka, a zatim se zamjenjuju u analitički izraz koji opisuje teorijsku distribuciju. U ovom slučaju, pretpostavka (ili hipoteza) o vrsti distribucije može biti ili statistički točna ili pogrešna. Ali u svakom slučaju, empirijska distribucija rekonstruirana iz uzorka samo grubo karakterizira pravu. Najvažniji parametri distribucije su očekivana vrijednost i varijanca.

Po svojoj prirodi raspodjele su stalan I diskretna. Najpoznatija kontinuirana distribucija je normalan. Primjeri analoga parametara i za njega su: srednja vrijednost i empirijska varijanca. Među diskretnim u socio-ekonomskim istraživanjima najčešće korišteni alternativni (dihotomni) distribucija. Parametar matematičkog očekivanja ove distribucije izražava relativnu vrijednost (ili udio) jedinice populacije koje imaju osobinu koja se proučava (označava se slovom); udio stanovništva koji nema tu karakteristiku označen je slovom q (q = 1 - p). Varijanca alternativne distribucije također ima empirijski analog.

Ovisno o vrsti distribucije i načinu odabira populacijskih jedinica različito se izračunavaju karakteristike parametara distribucije. Glavne za teorijske i empirijske distribucije dane su u tablici. 1.

Frakcija uzorka k n Omjer broja jedinica u uzorku populacije prema broju jedinica u općoj populaciji naziva se:

kn = n/N.

Frakcija uzorka w je omjer jedinica koje posjeduju karakteristiku koja se proučava x na veličinu uzorka n:

w = n n /n.

Primjer. U seriji robe koja sadrži 1000 jedinica, s uzorkom od 5%. uzorak udio k n u apsolutnoj vrijednosti je 50 jedinica. (n = N*0,05); ako su u ovom uzorku pronađena 2 neispravna proizvoda, tada stopa defekta uzorka wće biti 0,04 (w = 2/50 = 0,04 ili 4%).

Budući da se uzorak populacije razlikuje od opće populacije, postoje greške uzorkovanja.

Tablica 1. Glavni parametri opće i ogledne populacije

Pogreške uzorkovanja

U svakom slučaju (kontinuiranom i selektivnom) mogu se pojaviti dvije vrste pogrešaka: registracijske i reprezentativne. Greške registracija mogu imati slučajan I sustavan lik. Slučajno greške se sastoje od mnogo različitih uzroka koji se ne mogu kontrolirati, nenamjerne su i obično se međusobno uravnotežuju (na primjer, promjene u radu uređaja zbog temperaturnih fluktuacija u prostoriji).

Sustavno pogreške su pristrane jer krše pravila odabira objekata za uzorak (primjerice, odstupanja u mjerenjima pri promjeni postavki mjernog uređaja).

Primjer. Za procjenu socijalnog položaja stanovništva u gradu planirano je anketiranje 25% obitelji. Ako se odabir svakog četvrtog stana temelji na njegovom broju, tada postoji opasnost da se izaberu svi stanovi samo jedne vrste (npr. jednosobni stanovi), što će dovesti do sustavne pogreške i iskriviti rezultate; odabir broja stana ždrijebom je poželjniji jer će pogreška biti slučajna.

Greške u reprezentativnosti svojstvene su samo promatranju uzorka, ne mogu se izbjeći i nastaju kao rezultat činjenice da populacija uzorka ne reproducira u potpunosti opću populaciju. Vrijednosti pokazatelja dobivenih iz uzorka razlikuju se od pokazatelja istih vrijednosti u općoj populaciji (ili dobivenih kontinuiranim promatranjem).

Pristranost uzorkovanja je razlika između vrijednosti parametra u populaciji i vrijednosti njenog uzorka. Za prosječnu vrijednost kvantitativnog obilježja jednaka je: , a za udio (alternativno obilježje) - .

Pogreške uzorkovanja svojstvene su samo promatranjima uzorka. Što su ove pogreške veće, to se empirijska distribucija više razlikuje od teorijske. Parametri empirijske distribucije su slučajne varijable, stoga su greške uzorkovanja također slučajne varijable, mogu imati različite vrijednosti za različite uzorke i stoga je uobičajeno izračunati prosječna greška.

Prosječna pogreška uzorkovanja je veličina koja izražava standardno odstupanje srednje vrijednosti uzorka od matematičkog očekivanja. Ta vrijednost, podložna načelu slučajnog odabira, prvenstveno ovisi o veličini uzorka i o stupnju varijacije obilježja: što je veća ili manja varijacija obilježja (a time i vrijednosti), manja je prosječna pogreška uzorkovanja . Odnos između varijanci opće populacije i populacije uzorka izražava se formulom:

oni. kada je dovoljno velika, možemo pretpostaviti da . Prosječna pogreška uzorkovanja pokazuje moguća odstupanja parametra uzorka populacije od parametra opće populacije. U tablici 2 prikazuje izraze za izračun prosječne pogreške uzorkovanja za različite metode organiziranja promatranja.

Tablica 2. Prosječna pogreška (m) srednje vrijednosti uzorka i udio za različite vrste uzoraka

Gdje je prosjek varijanci uzorka unutar grupe za kontinuirani atribut;

Prosjek varijanci udjela unutar grupe;

— broj odabranih serija, — ukupan broj serija;

,

gdje je prosjek th serije;

— ukupni prosjek za cjelokupnu populaciju uzorka za kontinuiranu karakteristiku;

,

gdje je udio karakteristike u th seriji;

— ukupni udio obilježja u cijeloj populaciji uzorka.

Međutim, veličina prosječne pogreške može se procijeniti samo s određenom vjerojatnošću P (P ≤ 1). Ljapunov A.M. dokazao da distribucija srednjih vrijednosti uzorka, a time i njihova odstupanja od opće sredine, za dovoljno velik broj približno slijedi zakon normalne distribucije, pod uvjetom da opća populacija ima konačnu srednju vrijednost i ograničenu varijancu.

Matematički, ova izjava za prosjek se izražava kao:

a za dionicu, izraz (1) će imati oblik:

Gdje - Tamo je granična pogreška uzorkovanja, što je višekratnik prosječne pogreške uzorkovanja , a koeficijent višestrukosti je Studentov test ("koeficijent povjerenja"), koji je predložio W.S. Gosset (pseudonim "Student"); vrijednosti za različite veličine uzorka pohranjuju se u posebnu tablicu.

Vrijednosti funkcije F(t) za neke vrijednosti t jednake su:

Stoga se izraz (3) može čitati na sljedeći način: s vjerojatnošću P = 0,683 (68,3%) može se tvrditi da razlika između uzorka i općeg prosjeka neće premašiti jednu vrijednost prosječne pogreške m(t=1), s vjerojatnošću P = 0,954 (95,4%)- da neće prelaziti vrijednost dvije prosječne pogreške m (t = 2) , s vjerojatnošću P = 0,997 (99,7%)- neće premašiti tri vrijednosti m (t = 3) . Dakle, vjerojatnost da će ta razlika premašiti tri puta prosječnu pogrešku određena je razina pogreške i ne iznosi više 0,3% .

U tablici 3 prikazuje formule za izračun najveće pogreške uzorkovanja.

Tablica 3. Granična pogreška (D) uzorka za srednju vrijednost i udio (p) za različite vrste promatranja uzorka

Generalizacija rezultata uzorka na populaciju

Krajnji cilj promatranja uzorka je karakterizacija opće populacije. Uz male veličine uzorka, empirijske procjene parametara ( i ) mogu značajno odstupati od njihovih pravih vrijednosti ( i ). Stoga postoji potreba za utvrđivanjem granica unutar kojih se nalaze stvarne vrijednosti ( i ) za vrijednosti uzorka parametara ( i ).

Interval pouzdanosti bilo kojeg parametra θ opće populacije je slučajni raspon vrijednosti ovog parametra, koji je s vjerojatnošću blizu 1 ( pouzdanost) sadrži pravu vrijednost ovog parametra.

Granična pogreška uzorci Δ omogućuje određivanje graničnih vrijednosti karakteristika opće populacije i njihovih intervali povjerenja, koji su jednaki:

Poanta interval pouzdanosti dobiven oduzimanjem maksimalna greška iz uzorka srednje (udio), a gornji dodavanjem.

Interval pouzdanosti za prosjek koristi najveću pogrešku uzorkovanja i za danu razinu pouzdanosti određuje se formulom:

To znači da uz zadanu vjerojatnost R, koja se naziva razina pouzdanosti i jedinstveno je određena vrijednošću t, može se tvrditi da prava vrijednost prosjeka leži u rasponu od , a prava vrijednost udjela je u rasponu od

Prilikom izračunavanja intervala pouzdanosti za tri standardne razine pouzdanosti P = 95%, P = 99% i P = 99,9% vrijednost je odabrana pomoću . Primjene ovisno o broju stupnjeva slobode. Ako je veličina uzorka dovoljno velika, onda su vrijednosti koje odgovaraju ovim vjerojatnostima t su jednaki: 1,96, 2,58 I 3,29 . Dakle, granična pogreška uzorkovanja omogućuje nam određivanje graničnih vrijednosti karakteristika populacije i njihovih intervala pouzdanosti:

Distribucija rezultata promatranja uzorka na opću populaciju u socio-ekonomskim istraživanjima ima svoje karakteristike, jer zahtijeva potpunu zastupljenost svih njezinih vrsta i skupina. Osnova za mogućnost takve raspodjele je izračun relativna pogreška:

Gdje Δ % - relativna najveća pogreška uzorkovanja; , .

Postoje dvije glavne metode za proširenje promatranja uzorka na populaciju: direktni preračun i metoda koeficijenata.

Esencija izravna pretvorba sastoji se od množenja srednje vrijednosti uzorka!!\overline(x) s veličinom populacije.

Primjer. Neka se prosječan broj male djece u gradu procijeni metodom uzorka i iznosi jednu osobu. Ako u gradu ima 1000 mladih obitelji, tada se broj potrebnih mjesta u općinskim jaslicama dobije množenjem tog prosjeka s veličinom opće populacije N = 1000, tj. imat će 1200 mjesta.

Metoda omjera Preporučljivo je koristiti u slučaju kada se provodi selektivno promatranje kako bi se razjasnili podaci kontinuiranog promatranja.

Koristi se sljedeća formula:

gdje su sve varijable veličina populacije:

Potrebna veličina uzorka

Tablica 4. Potrebna veličina uzorka (n) za različite vrste organizacije promatranja uzorka

Pri planiranju promatranja uzorka s unaprijed određenom vrijednošću dopuštene pogreške uzorkovanja potrebno je ispravno procijeniti potrebnu veličina uzorka. Taj se volumen može odrediti na temelju dopuštene pogreške tijekom promatranja uzorka na temelju zadane vjerojatnosti koja jamči dopuštenu vrijednost razine pogreške (uzimajući u obzir način organiziranja promatranja). Formule za određivanje potrebne veličine uzorka n lako se mogu dobiti izravno iz formula za najveću pogrešku uzorkovanja. Dakle, iz izraza za graničnu grešku:

veličina uzorka se izravno određuje n:

Ova formula pokazuje da kako se najveća pogreška uzorkovanja smanjuje Δ potrebna veličina uzorka značajno raste, što je proporcionalno varijanci i kvadratu Studentovog t testa.

Za pojedini način organiziranja promatranja potrebna veličina uzorka izračunava se prema formulama danim u tablici. 9.4.

Primjeri praktičnih proračuna

Primjer 1. Izračun srednje vrijednosti i intervala pouzdanosti za kontinuirano kvantitativno obilježje.

Za procjenu brzine namirenja vjerovnika u banci je provedeno slučajno uzorkovanje 10 platnih dokumenata. Ispostavilo se da su njihove vrijednosti jednake (u danima): 10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

Neophodno s vjerojatnošću P = 0,954 odrediti graničnu pogrešku Δ srednja vrijednost uzorka i granice pouzdanosti srednjeg vremena izračuna.

Riješenje. Prosječna vrijednost se izračunava pomoću formule iz tablice. 9.1 za populaciju uzorka

Varijanca se izračunava pomoću formule iz tablice. 9.1.

Srednja kvadratna greška dana.

Prosječna pogreška izračunava se pomoću formule:

oni. prosjek je x ± m = 12,0 ± 2,3 dana.

Pouzdanost srednje vrijednosti bila je

Maksimalnu pogrešku izračunavamo pomoću formule iz tablice. 9.3 za ponovljeno uzorkovanje, budući da je veličina populacije nepoznata, i za P = 0,954 razina povjerenja.

Dakle, prosječna vrijednost je `x ± D = `x ± 2m = 12,0 ± 4,6, tj. njegova prava vrijednost leži u rasponu od 7,4 do 16,6 dana.

Korištenje Studentove t-tablice. Primjena nam omogućuje da zaključimo da je za n = 10 - 1 = 9 stupnjeva slobode dobivena vrijednost pouzdana s razinom značajnosti od £ 0,001, tj. rezultirajuća srednja vrijednost značajno se razlikuje od 0.

Primjer 2. Procjena vjerojatnosti (opći udio) str.

Mehanička metoda uzorkovanja istraživanja socijalnog statusa 1000 obitelji otkrila je da je udio obitelji s niskim primanjima w = 0,3 (30%)(uzorak je bio 2% , tj. n/N = 0,02). Potrebno s razinom pouzdanosti p = 0,997 odrediti indikator R obitelji s niskim primanjima u cijeloj regiji.

Riješenje. Na temelju prikazanih vrijednosti funkcije F(t) pronaći za zadanu razinu pouzdanosti P = 0,997 značenje t = 3(vidi formulu 3). Granična pogreška razlomka w odrediti formulom iz tablice. 9.3 za uzorkovanje koje se ne ponavlja (mehaničko uzorkovanje se uvijek ne ponavlja):

Maksimalna relativna pogreška uzorkovanja u % bit će:

Vjerojatnost (opći udio) obitelji s niskim primanjima u regiji bit će r=w±Δw, a granice pouzdanosti p izračunavaju se na temelju dvostruke nejednakosti:

w — Δ w ≤ p ≤ w — Δ w, tj. prava vrijednost p nalazi se unutar:

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Tako se s vjerojatnošću od 0,997 može ustvrditi da se udio obitelji s niskim primanjima među svim obiteljima u regiji kreće od 28,6% do 31,4%.

Primjer 3. Izračun srednje vrijednosti i intervala pouzdanosti za diskretnu karakteristiku specificiranu nizom intervala.

U tablici 5. određena je raspodjela aplikacija za izradu narudžbi prema vremenu njihove provedbe od strane poduzeća.

Tablica 5. Distribucija opažanja prema vremenu pojavljivanja

Riješenje. Prosječno vrijeme izvršenja naloga izračunava se pomoću formule:

Prosječno razdoblje bit će:

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mjesec.

Isti odgovor dobivamo ako upotrijebimo podatke o p i iz pretposljednjeg stupca tablice. 9.5, koristeći formulu:

Imajte na umu da se sredina intervala za posljednju gradaciju nalazi umjetnim dodavanjem širine intervala prethodne gradacije jednake 60 - 36 = 24 mjeseca.

Varijanca se izračunava pomoću formule

Gdje x i- sredina intervalne serije.

Prema tome!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), a srednja kvadratna pogreška je .

Prosječna pogreška izračunava se pomoću mjesečne formule, tj. prosječna vrijednost je!!\overline(x) ± m = 23,1 ± 13,4.

Maksimalnu pogrešku izračunavamo pomoću formule iz tablice. 9.3 za ponovljeni odabir, budući da je veličina populacije nepoznata, za razinu pouzdanosti 0,954:

Dakle, prosjek je:

oni. njegova stvarna vrijednost leži u rasponu od 0 do 50 mjeseci.

Primjer 4. Da bi se odredila brzina nagodbe s vjerovnicima N = 500 korporativnih poduzeća u poslovnoj banci, potrebno je provesti istraživanje uzorka metodom slučajnog neponavljajućeg odabira. Odredite potrebnu veličinu uzorka n tako da uz vjerojatnost P = 0,954 pogreška srednje vrijednosti uzorka ne premaši 3 dana ako su procjene pokazale da je standardna devijacija s bila 10 dana.

Riješenje. Za određivanje broja potrebnih studija n koristit ćemo se formulom za neponovljivi odabir iz tablice. 9.4:

U njemu je t vrijednost određena s razine pouzdanosti od P = 0,954. Jednako je 2. Srednja kvadratna vrijednost je s = 10, veličina populacije je N = 500, a najveća pogreška srednje vrijednosti je Δ x = 3. Zamjenom ovih vrijednosti u formulu, dobivamo:

oni. Dovoljno je sastaviti uzorak od 41 poduzeća kako bi se procijenio traženi parametar - brzina nagodbe s vjerovnicima.

Odstupanja između vrijednosti bilo kojeg pokazatelja utvrđenog statističkim promatranjem i njegove stvarne veličine nazivaju se pogreške opažanja . Ovisno o razlozima nastanka razlikuju se greške upisa i pogreške reprezentativnosti.

Greške pri registraciji nastaju kao rezultat netočne identifikacije činjenica ili pogrešnog bilježenja tijekom procesa promatranja ili intervjua. Mogu biti nasumični ili sustavni. Nasumične greške u registraciji mogu napraviti i ispitanici u svojim odgovorima i anketari. Sustavne pogreške mogu biti namjerne i nenamjerne. Namjerno – svjesno, tendenciozno iskrivljavanje stvarnog stanja stvari. Nenamjerne su uzrokovane raznim slučajnim razlozima (nemar, nepažnja).

Greške u reprezentativnosti (reprezentativnost) nastaju kao rezultat nepotpune ankete i ako populacija koja se anketira ne reproducira u potpunosti opću populaciju. Mogu biti nasumični ili sustavni. Slučajne pogreške reprezentativnosti su odstupanja koja nastaju tijekom nepotpunog promatranja zbog činjenice da skup odabranih jedinica promatranja (uzorak) ne reproducira u potpunosti cjelokupnu populaciju kao cjelinu. Sustavne pogreške reprezentativnosti su odstupanja koja nastaju kao posljedica kršenja načela slučajnog odabira jedinica. Pogreške reprezentativnosti organski su svojstvene selektivnom promatranju i nastaju zbog činjenice da populacija uzorka ne reproducira u potpunosti opću populaciju. Pogreške reprezentativnosti ne mogu se izbjeći, ali korištenjem metoda teorije vjerojatnosti koje se temelje na korištenju graničnih teorema zakona velikih brojeva, te se pogreške mogu svesti na minimalne vrijednosti, čije se granice utvrđuju s dovoljno visokom točnošću.

Pogreške uzorkovanja – razlika između karakteristika uzorka i opće populacije. Za prosječnu vrijednost pogreška će se odrediti formulom

Gdje

Veličina
nazvao ekstremna pogreška uzorci.

Najveća pogreška uzorkovanja je slučajna vrijednost. Granični teoremi zakona velikih brojeva posvećeni su proučavanju obrazaca grešaka slučajnog uzorkovanja. Ti su obrasci najpotpunije otkriveni u teoremima P. L. Chebysheva i A. M. Lyapunova.

Teorem P. L. Čebiševa u odnosu na metodu koja se razmatra, može se formulirati na sljedeći način: s dovoljno velikim brojem neovisnih opažanja moguće je, s vjerojatnošću blizu jedan (tj. gotovo sa sigurnošću), ustvrditi da je odstupanje uzorka prosjek od općeg prosjeka bit će onoliko mali koliko želite. U teoremu P. L. Chebysheva dokazano je da veličina pogreške ne smije prelaziti . Zauzvrat, vrijednost , izražavajući standardnu ​​devijaciju uzorka srednje vrijednosti od opće sredine, ovisi o varijabilnosti obilježja u populaciji i broj odabranih jedinica n. Ta se ovisnost izražava formulom

, (7.2)

Gdje ovisi i o metodi uzorkovanja.

Veličina =nazvao prosječna greška uzorkovanja. U ovom izrazu – opća varijanca, n– veličina uzorka populacije.

Razmotrimo kako broj odabranih jedinica utječe na prosječnu pogrešku n. Logično, nije teško provjeriti da će pri odabiru većeg broja jedinica razlike između prosjeka biti manje, odnosno da postoji obrnuti odnos između prosječne pogreške uzorkovanja i broja odabranih jedinica. U ovom slučaju ne nastaje samo inverzni matematički odnos, već odnos koji pokazuje da je kvadrat odstupanja između prosjeka obrnuto proporcionalan broju odabranih jedinica.

Povećanje varijabilnosti obilježja povlači za sobom povećanje standardne devijacije, a time i pogrešku. Ako pretpostavimo da će sve jedinice imati istu vrijednost atributa, tada će standardna devijacija postati nula i pogreška uzorkovanja će također nestati. Tada nema potrebe primjenjivati ​​uzorkovanje. Međutim, treba imati na umu da je veličina varijabilnosti svojstva u općoj populaciji nepoznata, budući da su veličine jedinica u njoj nepoznate. Moguće je izračunati samo varijabilnost obilježja u uzorku populacije. Odnos između varijanci opće i ogledne populacije izražava se formulom

Budući da je vrijednost na dovoljno velikom n blizu jedinici, možemo približno pretpostaviti da je varijanca uzorka jednaka općoj varijanci, tj.

Posljedično, prosječna pogreška uzorkovanja pokazuje koja su moguća odstupanja karakteristika uzorka populacije od odgovarajućih karakteristika opće populacije. Međutim, o veličini ove pogreške može se prosuditi s određenom vjerojatnošću. Vrijednost vjerojatnosti označena je množiteljem

Teorem A. M. Ljapunova . A. M. Lyapunov dokazao je da je distribucija srednjih vrijednosti uzorka (a time i njihova odstupanja od opće sredine) s dovoljno velikim brojem neovisnih opažanja približno normalna, pod uvjetom da opća populacija ima konačnu srednju vrijednost i ograničenu varijancu.

Matematički Ljapunovljev teorem može se napisati ovako:

(7.3)

Gdje
, (7.4)

Gdje
– matematička konstanta;

granična pogreška uzorkovanja , što omogućuje saznanje u kojim se granicama nalazi vrijednost opće havarije.

Vrijednosti ovog integrala za različite vrijednosti koeficijenta pouzdanosti t izračunati i prikazati u posebnim matematičkim tablicama. Konkretno, kada:

Jer t ukazuje na vjerojatnost odstupanja
, tj. vjerojatnosti za koliko će se opći prosjek razlikovati od prosjeka uzorka, onda se može čitati na sljedeći način: s vjerojatnošću od 0,683 može se ustvrditi da razlika između uzorka i općeg prosjeka ne prelazi jednu vrijednost prosječne pogreške uzorkovanja. Drugim riječima, u 68,3% slučajeva pogreška reprezentativnosti neće prijeći granice
S vjerojatnošću od 0,954 može se ustvrditi da pogreška reprezentativnosti ne prelazi
(tj. u 95% slučajeva). S vjerojatnošću od 0,997, tj. prilično blizu jedinici, možemo očekivati ​​da razlika između uzorka i općeg prosjeka neće prijeći trostruku prosječnu grešku uzorkovanja, itd.

Logično, veza ovdje izgleda prilično jasna: što su veće granice unutar kojih je moguća pogreška dopuštena, to je vjerojatnije prosuditi njezinu veličinu.

Poznavanje uzorka srednje vrijednosti atributa
i granična pogreška uzorkovanja
, moguće je odrediti granice (limite) unutar kojih je sadržana opća havarija

1 . Pravilno slučajno uzorkovanje – ova je metoda usmjerena na odabir jedinica iz opće populacije bez podjele na dijelove ili skupine. Istovremeno, kako bi se poštivalo osnovno načelo uzorkovanja - jednaka mogućnost odabira svih jedinica opće populacije - koristi se shema slučajnog izdvajanja jedinica ždrijebom (lutrija) ili tablica slučajnih brojeva. . Moguć je ponovljeni i neponovljivi odabir jedinica

Prosječna pogreška stvarno slučajnog uzorka standardna je devijacija mogućih vrijednosti prosjeka uzorka od općeg prosjeka. Prosječne pogreške uzorkovanja primjenom čisto slučajne metode uzorkovanja prikazane su u tablici. 7.2.

Tablica 7.2

Prosječna pogreška uzorkovanja μ

Prilikom odabira

ponovljeno

ponovljiv

Za prosjek

U tablici se koriste sljedeće oznake:

– varijanca uzorka populacije;

- veličina uzorka;

– veličina opće populacije;

– uzorak udjela jedinica koje posjeduju proučavano svojstvo;

– broj jedinica koje posjeduju osobinu koja se proučava;

- veličina uzorka.

Za povećanje točnosti umjesto množitelja trebali biste uzeti množitelj
, ali s velikim brojem N razlika između ovih izraza nema praktičnog značaja.

Maksimalna pogreška stvarno slučajnog uzorka
izračunati po formuli

, (7.6)

Gdje t – koeficijent pouzdanosti ovisi o vrijednosti vjerojatnosti.

Primjer. Prilikom ispitivanja sto uzoraka proizvoda odabranih nasumično iz serije, 20 se pokazalo nestandardnim. S vjerojatnošću od 0,954 odredite granice unutar kojih se nalazi udio nestandardnih proizvoda u seriji.

Riješenje. Izračunajmo opći udio ( R):
.

Udio nestandardnih proizvoda:
.

Maksimalna pogreška udjela uzorka s vjerojatnošću od 0,954 izračunava se pomoću formule (7.6) pomoću formule u tablici. 7.2 za dionicu:

S vjerojatnošću od 0,954 može se reći da je udio nestandardnih proizvoda u seriji robe unutar 12% ≤ P≤ 28 %.

U praksi osmišljavanja promatranja uzorka javlja se potreba za određivanjem veličine uzorka, što je neophodno kako bi se osigurala određena točnost izračuna općih prosjeka. Dane su najveća pogreška uzorkovanja i njezina vjerojatnost. Iz formule
i formule za prosječne pogreške uzorkovanja, utvrđuje se potrebna veličina uzorka. Formule za određivanje veličine uzorka ( n) ovise o načinu odabira. Izračun veličine uzorka za čisto slučajni uzorak dan je u tablici. 7.3.

Tablica 7.3

Procijenjeni odabir

za prosjek

Ponavlja se

Neponovljivo

2 . Mehaničko uzorkovanje – ovom metodom polaze od uzimanja u obzir određenih značajki lokacije objekata u općoj populaciji, njihovog redoslijeda (po popisu, broju, abecedi). Mehaničko uzorkovanje provodi se odabirom pojedinačnih objekata opće populacije u određenom intervalu (svakog 10. ili 20.). Interval se izračunava u odnosu na , Gdje n- veličina uzorka, N– veličina opće populacije. Dakle, ako se iz populacije od 500.000 jedinica očekuje da se dobije 2% uzorka, tj. da se odabere 10.000 jedinica, tada će omjer selekcije biti
Odabir jedinica provodi se u skladu s utvrđenim omjerom u pravilnim vremenskim razmacima. Ako je položaj objekata u općoj populaciji slučajan, tada je mehaničko uzorkovanje slično po sadržaju slučajnom odabiru. U mehaničkoj selekciji koristi se samo uzorkovanje koje se ne ponavlja.

Prosječna pogreška i veličina uzorka tijekom mehaničkog odabira izračunavaju se pomoću formula slučajnog uzorka (vidi tablice 7.2 i 7.3).

3 . Tipičan uzorak , u kojoj je opća populacija podijeljena prema nekim bitnim karakteristikama u tipične skupine; izbor jedinica se vrši iz tipičnih grupa. Ovakvim načinom selekcije opća se populacija dijeli na skupine koje su po nečemu homogene, koje imaju svoje karakteristike, a pitanje se svodi na određivanje veličine uzoraka iz svake skupine. Može biti jednoobrazno uzorkovanje – ovom se metodom iz svake tipične skupine odabire isti broj jedinica
Ovaj je pristup opravdan samo ako je broj izvornih tipičnih skupina jednak. Kod tipičnog odabira, nesrazmjernog veličini skupina, ukupan broj odabranih jedinica dijeli se s brojem tipičnih skupina, dobivena vrijednost daje broj odabira iz svake tipične skupine.

Napredniji oblik selekcije je proporcionalno uzorkovanje . Shema za formiranje uzorka populacije naziva se proporcionalna kada je broj uzoraka uzetih iz svake tipične skupine u općoj populaciji proporcionalan brojevima, varijancama (ili kombinaciji brojeva i varijanci). Uvjetno određujemo veličinu uzorka od 100 jedinica i odabiremo jedinice iz skupina:

razmjerno veličini njihove opće populacije (Tablica 7.4). Tablica pokazuje:

N ja– veličina tipične skupine;

d j– podijeli ( N ja/ N);

N– veličina opće populacije;

n ja– izračunava se veličina uzorka iz tipične skupine:

, (7.7)

n– veličina uzorka iz opće populacije.

Tablica 7.4

N ja

d j

n ja

proporcionalan standardnoj devijaciji (Tablica 7.5).

ovdje  ja– standardna devijacija tipičnih skupina;

n ja – veličina uzorka iz tipične skupine izračunava se pomoću formule

(7.8)

Tablica 7.5

N ja

n ja

kombinirani (Tablica 7.6).

Veličina uzorka izračunava se pomoću formule

. (7.9)

Tablica 7.6

ja N ja

Prilikom provođenja tipičnog uzorka, izravni odabir iz svake skupine provodi se nasumičnim uzorkovanjem.

Prosječne pogreške uzorkovanja izračunate su pomoću formula u tablici. 7.7 ovisno o načinu odabira iz tipičnih skupina.

Tablica 7.7

Metoda odabira

Ponavlja se

Neponovljivo

za prosjek

za udio

za prosjek

za udio

Nesrazmjerno veličini grupe

Proporcionalno veličini grupe

Proporcionalan fluktuacijama u grupama (najprofitabilniji je)

Ovdje
– prosjek varijanci tipičnih grupa unutar grupe;

– udio jedinica koje posjeduju proučavano svojstvo;

– prosjek varijanci unutar grupe za dionicu;

– standardna devijacija u uzorku od ja tipična grupa;

– veličina uzorka iz tipične skupine;

– ukupna veličina uzorka;

– volumen tipične grupe;

– obujam opće populacije.

Veličina uzorka iz svake tipične skupine trebala bi biti proporcionalna standardnoj devijaciji u ovoj skupini
.Izračunavanje brojeva
proizvedeno prema formulama danim u tablici. 7.8.

Tablica 7.8

4 . Serijsko uzorkovanje – pogodno u slučajevima kada su jedinice populacije kombinirane u male skupine ili serije. U serijskom uzorkovanju opća populacija podijeljena je u skupine jednake veličine – serije. Serije su odabrane u uzorku populacije. Bit serijskog uzorkovanja je slučajni ili mehanički odabir serija, unutar kojih se provodi kontinuirano ispitivanje jedinica. Prosječna pogreška serijskog uzorka s jednakim serijama ovisi samo o veličini varijance između grupa. Prosječne pogreške su sažete u tablici. 7.9.

Tablica 7.9

Metoda odabira serije

za prosjek

za udio

Ponavlja se

Neponovljivo

Ovdje R– broj serija u općoj populaciji;

r– broj odabranih serija;

– međuserijska (međugrupna) disperzija sredina;

– međuserijska (međugrupna) disperzija udjela.

Kod serijskog odabira potreban broj odabranih serija određuje se na isti način kao i kod čisto slučajne metode odabira.

Broj serijskih uzoraka izračunava se pomoću formula navedenih u tablici. 7.10.

Tablica 7.10

Primjer. U mehaničarskoj radionici tvornice radi 100 radnika u deset timova. U svrhu proučavanja stručne spreme radnika provedeno je 20% serijsko neponovljivo uzorkovanje koje je uključivalo dva tima. Dobivena je sljedeća distribucija anketiranih radnika po kategorijama:

Kategorije radnika u brigadi 1

Kategorije radnika u brigadi 2

Kategorije radnika u brigadi 1

Kategorije radnika u brigadi 2

Potrebno je s vjerojatnošću 0,997 odrediti granice unutar kojih se nalazi prosječna kategorija radnika u strojarnici.

Riješenje. Definirajmo prosjeke uzoraka za timove i ukupni prosjek kao ponderirani prosjek prosjeka grupa:

Odredimo disperziju između ciklusa pomoću formula (5.25):

Izračunajmo prosječnu pogrešku uzorkovanja pomoću formule u tablici. 7.9:

Izračunajmo najveću pogrešku uzorkovanja s vjerojatnošću od 0,997:

S vjerojatnošću od 0,997 može se ustvrditi da je prosječna kategorija radnika u strojarnici unutar raspona

Kako bi se okarakterizirala pouzdanost pokazatelja uzorka, razlikuju se prosječne i maksimalne pogreške uzorkovanja, koje su karakteristične samo za promatranja uzorka. Ovi pokazatelji odražavaju razliku između uzorka i odgovarajućih općih pokazatelja.

Prosječna pogreška uzorkovanja određuje se prvenstveno veličinom uzorka i ovisi o strukturi i stupnju varijacije svojstva koje se proučava.

Značenje prosječne pogreške uzorkovanja je sljedeće. Izračunate vrijednosti udjela uzorka (w) i srednje vrijednosti uzorka () slučajne su varijable u prirodi. Mogu poprimiti različite vrijednosti ovisno o tome koje su specifične jedinice populacije uključene u uzorak. Na primjer, ako je pri određivanju prosječne dobi zaposlenika poduzeća više mladih ljudi uključeno u jedan uzorak, a stariji radnici u drugi, tada će srednje vrijednosti uzorka i pogreške uzorkovanja biti različite. Prosječna pogreška uzorkovanja određuje se formulom:

(27) ili - ponovno uzorkovanje. (28)

Gdje je: μ – prosječna pogreška uzorkovanja;

σ – standardna devijacija obilježja u općoj populaciji;

n – veličina uzorka.

Veličina pogreške μ pokazuje koliko se prosječna vrijednost atributa utvrđena u uzorku razlikuje od prave vrijednosti atributa u općoj populaciji.

Iz formule proizlazi da je pogreška uzorkovanja izravno proporcionalna standardnoj devijaciji i obrnuto proporcionalna kvadratnom korijenu broja jedinica uključenih u uzorak. To znači, na primjer, da što je veće širenje vrijednosti atributa u populaciji, odnosno što je veća disperzija, to mora biti veća veličina uzorka ako želimo vjerovati rezultatima anketnog uzorka. I obrnuto, s niskom disperzijom, možete se ograničiti na mali broj uzorka populacije. Pogreška uzorkovanja bit će unutar prihvatljivih granica.

Budući da se kod uzorkovanja bez ponavljanja veličina populacije N smanjuje tijekom uzorkovanja, u formulu za izračun prosječne pogreške uzorkovanja uključen je dodatni faktor

(1- ). Formula za prosječnu pogrešku uzorkovanja ima sljedeći oblik:

Prosječna pogreška je manja za neponovljivo uzorkovanje, što uvjetuje njegovu širu upotrebu.

Za praktične zaključke potrebna je karakterizacija populacije na temelju rezultata uzorka. Prosjeci uzorka i udjeli distribuiraju se općoj populaciji, uzimajući u obzir granicu njihove moguće pogreške, te uz razinu vjerojatnosti koja to jamči. Određivanjem određene razine vjerojatnosti odabire se vrijednost normaliziranog odstupanja i utvrđuje najveća pogreška uzorkovanja.

Pouzdanost (vjerojatnost pouzdanosti) procjene X na temelju X* naziva vjerojatnost γ , čime se ostvaruje nejednakost


׀H-H*׀< δ, (30)

gdje je δ najveća pogreška uzorkovanja, koja karakterizira širinu intervala u kojem se, s vjerojatnošću γ, nalazi vrijednost proučavanog parametra populacije.

Pouzdan naziva se interval (X* - δ; X* + δ), koji pokriva parametar X koji se proučava (to jest, vrijednost parametra X je unutar ovog intervala) sa zadanom pouzdanošću γ.

Tipično, pouzdanost procjene određena je unaprijed, a broj blizak jedan uzima se kao γ: 0,95; 0,99 ili 0,999.

Maksimalna pogreška δ povezana je s prosječnom pogreškom μ sljedećom relacijom: , (31)

gdje je: t koeficijent pouzdanosti koji ovisi o vjerojatnosti P s kojom se može tvrditi da granična pogreška δ neće premašiti t-struku prosječnu pogrešku μ (također se naziva kritične točke ili kvantili Studentove distribucije).

Kao što proizlazi iz relacije, granična pogreška izravno je proporcionalna prosječnoj pogrešci uzorkovanja i koeficijentu pouzdanosti koji ovisi o zadanoj razini pouzdanosti procjene.

Iz formule za prosječnu pogrešku uzorkovanja i omjer granične i prosječne pogreške dobivamo:

Uzimajući u obzir vjerojatnost pouzdanosti, ova formula će imati oblik:

Prosječna pogreška uzorkovanja pokazuje koliko parametar populacije uzorka u prosjeku odstupa od odgovarajućeg parametra populacije. Ako izračunamo prosjek pogrešaka svih mogućih uzoraka određene vrste danog volumena ( n), ekstrahirane iz iste opće populacije, dobivamo njihovu generalizirajuću karakteristiku - prosječna pogreška uzorkovanja().

U teoriji promatranja uzorkovanja izvode se formule za određivanje koje su pojedinačne za različite metode odabira (ponovljene i neponovljive), vrste korištenih uzoraka i vrste statističkih pokazatelja koji se ocjenjuju.

Na primjer, ako se koristi ponovljeno nasumično uzorkovanje, ono se definira kao:

Pri procjeni prosječne vrijednosti obilježja;

Ako je atribut alternativan, i udio je procijenjen.

U slučaju nasumičnog odabira koji se ne ponavlja, formule (1 - n/N) se mijenjaju:

- za prosječnu vrijednost obilježja;

- za dionicu.

Vjerojatnost dobivanja točno ove vrijednosti pogreške uvijek je jednaka 0,683. U praksi preferiraju dobivanje podataka s većom vjerojatnošću, ali to dovodi do povećanja veličine pogreške uzorkovanja.

Maksimalna pogreška uzorkovanja () jednaka je t-strukom broju prosječnih pogrešaka uzorkovanja (u teoriji uzorkovanja koeficijent t se obično naziva koeficijent pouzdanosti):

Ako se pogreška uzorkovanja udvostruči (t = 2), dobivamo puno veću vjerojatnost da neće prijeći određenu granicu (u našem slučaju udvostručenu prosječnu pogrešku) - 0,954. Ako uzmemo t = 3, tada će vjerojatnost pouzdanosti biti 0,997 - gotovo sigurnost.

Razina granične pogreške uzorkovanja ovisi o sljedećim čimbenicima:

  • stupanj varijacije jedinica opće populacije;
  • veličina uzorka;
  • odabrane sheme odabira (neponavljajući odabir daje manju pogrešku);
  • razina povjerenja.

Ako je veličina uzorka veća od 30, tada se vrijednost t određuje iz tablice normalne distribucije, ako je manja - iz tablice Studentove distribucije.

Predstavimo neke vrijednosti koeficijenta pouzdanosti iz tablice normalne distribucije.

Interval pouzdanosti za srednju vrijednost atributa i za udio u populaciji utvrđuje se kako slijedi:

Dakle, određivanje granica općeg prosjeka i udjela sastoji se od sljedećih koraka:

Pogreške uzorkovanja za različite vrste odabira

  1. Zapravo slučajno i mehaničko uzorkovanje. Prosječna pogreška stvarnog slučajnog i mehaničkog uzorkovanja nalazi se pomoću formula prikazanih u tablici. 11.3.

Primjer 11.2. Za proučavanje razine produktivnosti kapitala provedeno je istraživanje uzorka 90 poduzeća od 225 metodom slučajnog ponovljenog uzorka, što je rezultiralo podacima prikazanim u tablici.

U primjeru koji razmatramo imamo uzorak od 40% (90:225 = 0,4, odnosno 40%). Odredimo njegovu najveću pogrešku i granice za prosječnu vrijednost obilježja u populaciji prema koracima algoritma:

  1. Na temelju rezultata istraživanja uzorka izračunavamo prosječnu vrijednost i varijancu u uzorku populacije:
Tablica 11.5.
Rezultati promatranja Izračunate vrijednosti
razina produktivnosti kapitala, rub., x i broj poduzeća, f i sredina intervala, x i \xb4 x i\xb4 f i x i\xb4 2 f i
Sve do 1.4 13 1,3 16,9 21,97
1,4-1,6 15 1,5 22,5 33,75
1,6-1,8 17 1,7 28,9 49,13
1,8-2,0 15 1,9 28,5 54,15
2,0-2,2 16 2,1 33,6 70,56
2.2 i više 14 2,3 32,2 74,06
Ukupno 90 - 162,6 303,62

Srednja vrijednost uzorka

Varijanca uzorka proučavanog svojstva

Za naše podatke određujemo najveću pogrešku uzorkovanja, na primjer, s vjerojatnošću od 0,954. Koristeći tablicu vrijednosti vjerojatnosti funkcije normalne distribucije (vidi izvadak iz nje dat u Dodatku 1), nalazimo vrijednost koeficijenta pouzdanosti t, koja odgovara vjerojatnosti od 0,954. Uz vjerojatnost od 0,954, t koeficijent je 2.

Tako u 954 slučaja od 1000 prosječna vrijednost produktivnosti kapitala neće biti veća od 1,88 rubalja. i ne manje od 1,74 rubalja.

Gore je korištena ponovljena shema slučajnog uzorkovanja. Pogledajmo hoće li se rezultati ankete promijeniti ako pretpostavimo da je odabir proveden prema shemi odabira bez ponavljanja. U ovom slučaju, prosječna pogreška se izračunava pomoću formule

Tada će, s vjerojatnošću jednakom 0,954, vrijednost najveće pogreške uzorkovanja biti:

Granice pouzdanosti za prosječnu vrijednost karakteristike tijekom neponavljajućeg slučajnog odabira imat će sljedeće vrijednosti:

Uspoređujući rezultate dviju shema odabira, možemo zaključiti da korištenje slučajnog uzorkovanja bez ponavljanja daje točnije rezultate u usporedbi s korištenjem ponovljenog odabira s istom razinom pouzdanosti. Štoviše, što je veća veličina uzorka, to se značajnije sužavaju granice prosječnih vrijednosti pri prelasku s jedne sheme odabira na drugu.

Koristeći primjere podataka, utvrđujemo unutar kojih se granica nalazi udio poduzeća s razinom produktivnosti kapitala koja ne prelazi 2,0 rublja u općoj populaciji:

  1. Izračunajmo udio uzorka.

Broj poduzeća u uzorku s razinom produktivnosti kapitala koja ne prelazi 2,0 rublja je 60 jedinica. Zatim

m = 60, n = 90, w = m/n = 60: 90 = 0,667;

  1. izračunati varijancu udjela u uzorku populacije
  1. prosječna pogreška uzorkovanja korištenjem ponovljene sheme uzorkovanja bit će

Ako pretpostavimo da je korištena shema uzorkovanja bez ponavljanja, tada će prosječna pogreška uzorkovanja, uzimajući u obzir korekciju za konačnost populacije, biti

  1. Postavimo vjerojatnost pouzdanosti i odredimo najveću pogrešku uzorkovanja.

Uz vrijednost vjerojatnosti P = 0,997, prema tablici normalne distribucije, dobivamo vrijednost za koeficijent pouzdanosti t = 3 (vidi izvadak iz nje dat u Dodatku 1):

Dakle, s vjerojatnošću od 0,997, može se reći da u općoj populaciji udio poduzeća s razinom produktivnosti kapitala ne višom od 2,0 rublja iznosi najmanje 54,7% i ne više od 78,7%.

  1. Tipičan uzorak. Kod tipičnog uzorka opća populacija objekata podijeljena je u k grupa, dakle

N 1 + N 2 + … + N i + … + N k = N.

Količina jedinica izdvojenih iz svake tipične skupine ovisi o usvojenoj metodi uzorkovanja; njihov ukupan broj čini potrebnu veličinu uzorka

n 1 + n 2 + … + n i + … + n k = n.

Postoje sljedeća dva načina organiziranja odabira unutar tipične skupine: proporcionalno volumenu tipičnih skupina i proporcionalno stupnju fluktuacije vrijednosti atributa među jedinicama promatranja u skupinama. Razmotrimo prvi od njih, kao najčešće korišteni.

Odabir proporcionalan veličini tipičnih skupina pretpostavlja da će u svakoj od njih biti odabran sljedeći broj populacijskih jedinica:

n = n i N i /N

gdje je n i broj jedinica ekstrahiranih za uzorak iz i-te tipične skupine;

n - ukupna veličina uzorka;

N i je broj jedinica u općoj populaciji koje čine i-tu tipičnu skupinu;

N je ukupan broj jedinica u populaciji.

Odabir jedinica unutar grupa odvija se u obliku slučajnog ili mehaničkog uzorkovanja.

Formule za procjenu prosječne pogreške uzorkovanja za srednju vrijednost i udio prikazane su u tablici. 11.6.

Ovdje je prosjek grupnih varijanci tipičnih grupa.

Primjer 11.3. Na jednom od moskovskih sveučilišta provedeno je ispitivanje uzorka studenata kako bi se utvrdilo prosječno posjećivanje sveučilišne knjižnice od strane jednog studenta po semestru. U tu svrhu korišten je tipični uzorak od 5% bez ponavljanja, čije tipične skupine odgovaraju broju tečaja. Odabirom proporcionalnim veličini tipičnih skupina dobiveni su sljedeći podaci:

Tablica 11.7.
Broj tečaja Ukupno studenata, osoba, N i Ispitani kao rezultat selektivnog promatranja, ljudi, n i Prosječan broj posjeta knjižnici po studentu po semestru, x i Varijanca uzorka unutar grupe,
1 650 33 11 6
2 610 31 8 15
3 580 29 5 18
4 360 18 6 24
5 350 17 10 12
Ukupno 2 550 128 8 -

Broj studenata koje je potrebno ispitati u svakom predmetu izračunava se na sljedeći način:

slično i za ostale grupe:

n 2 = 31 (osoba);

n 3 = 29 (osoba);

Distribucija srednjih vrijednosti uzorka uvijek ima normalan zakon distribucije (ili mu se približava) za n > 100, bez obzira na prirodu distribucije opće populacije. Međutim, u slučaju malih uzoraka vrijedi drugačiji zakon distribucije - Studentova distribucija. U ovom slučaju, koeficijent pouzdanosti nalazi se iz tablice Studentove t-distribucije ovisno o vjerojatnosti pouzdanosti P i veličini uzorka n. Dodatak 1 daje fragment tablice Studentove t-distribucije, prikazan kao ovisnost vjerojatnosti pouzdanosti o veličina uzorka i koeficijent pouzdanosti t.

Primjer 11.4. Pretpostavimo da je ispitivanje uzorka osam studenata akademija pokazalo da su potrošili sljedeći broj sati pripremajući se za test iz statistike: 8,5; 8,0; 7,8; 9,0; 7.2; 6.2; 8,4; 6.6.

Procijenimo prosječni vremenski utrošak uzorka i konstruirajmo interval pouzdanosti za prosječnu vrijednost obilježja u općoj populaciji, uzimajući vjerojatnost pouzdanosti jednaku 0,95.

Odnosno, s vjerojatnošću od 0,95 može se ustvrditi da je vrijeme koje je student proveo u pripremi za test u rasponu od 6,9 do 8,5 sati.

11.2.2. Određivanje veličine uzorka populacije

Prije izravnog provođenja promatranja uzorka uvijek se rješava pitanje koliko jedinica populacije koja se proučava mora biti odabrano za istraživanje. Formule za određivanje veličine uzorka izvedene su iz formula za najveće pogreške uzorkovanja u skladu sa sljedećim polazištima (tablica 11.7):

  1. vrsta namjeravanog uzorka;
  2. metoda selekcije (ponovljena ili neponavljajuća);
  3. izbor parametra koji se ocjenjuje (prosječna vrijednost obilježja ili udio).

Osim toga, potrebno je unaprijed odrediti vrijednost vjerojatnosti povjerenja koja odgovara potrošaču informacija, te veličinu najveće dopuštene pogreške uzorkovanja.

Napomena: kada koristite formule dane u tablici, preporuča se zaokružiti dobivenu veličinu uzorka kako bi se osigurala određena granica točnosti.

Primjer 11.5. Izračunajmo koliko bi od 507 industrijskih poduzeća porezna inspekcija trebala provjeriti kako bi s vjerojatnošću od 0,997 utvrdila udio poduzeća s prekršajima u plaćanju poreza. Prema podacima iz prethodnog sličnog istraživanja, standardna devijacija iznosila je 0,15; Očekuje se da pogreška uzorkovanja ne bude veća od 0,05.

Kada koristite ponovljeno nasumično uzorkovanje, provjerite

U slučaju ponovljenog slučajnog odabira bit će potrebno provjeriti

Kao što vidimo, korištenje neponovljivog uzorkovanja omogućuje nam istraživanje znatno manjeg broja objekata.

Primjer 11.6. Planirano je provesti istraživanje plaća u industrijskim poduzećima metodom slučajnog uzorkovanja bez ponavljanja. Kolika bi trebala biti veličina uzorka populacije ako je u vrijeme istraživanja broj zaposlenih u djelatnosti bio 100.000 ljudi? Maksimalna pogreška uzorkovanja ne smije prelaziti 100 rubalja. s vjerojatnošću 0,954. Na temelju rezultata prethodnih istraživanja plaća u industriji, poznato je da standardna devijacija iznosi 500 rubalja.

Stoga je za rješavanje ovog problema potrebno u uzorak uključiti najmanje 100 osoba.

Prosječna pogreška uzorkovanja

Populacija uzorka može se formirati na temelju kvantitativnog obilježja statističkih vrijednosti, kao i na temelju alternativnog ili atributivnog. U prvom slučaju opća karakteristika uzorka je srednja vrijednost uzorka označena količina , a u drugom - uzorak udio označene količine w. U općoj populaciji, odnosno: opći prosjek I opći udio rijeke

Razlike -- I W -- str se zovu greška uzorkovanja, koja se dijeli na pogrešku upisa i pogrešku reprezentativnosti. Prvi dio pogreške uzorkovanja nastaje zbog pogrešnih ili netočnih podataka zbog nerazumijevanja suštine pitanja, nepažnje matičara prilikom ispunjavanja upitnika, obrazaca i sl. Prilično ga je lako otkriti i ukloniti. Drugi dio pogreške proizlazi iz stalnog ili spontanog nepoštivanja načela slučajnog odabira. Teško ga je otkriti i eliminirati, mnogo je veći od prvog i zato mu se pridaje glavna pozornost.

Veličina pogreške uzorkovanja ovisi o strukturi potonjeg. Primjerice, ako je pri određivanju prosječnog akademskog uspjeha studenata fakulteta u jednom uzorku uključeno više izvrsnih studenata, a u drugom više neuspješnih, tada će prosječni rezultati uzorka i pogreške uzorkovanja biti različiti.

Stoga se u statistici prosječna pogreška ponovljenog i neponovljenog uzorkovanja određuje u obliku njegove specifične standardne devijacije prema formulama

= - ponovljeno; (1,35)

= - neponavljajuće; (1,36)

gdje je Dv varijanca uzorka, određena kvantitativnim atributom statističkih vrijednosti korištenjem uobičajenih formula iz poglavlja 2.

Uz alternativnu ili atributivnu karakteristiku, varijanca uzorka određena je formulom

Dv = w(1-w). (1.37)

Iz formula (1.35) i (1.36) jasno je da je prosječna pogreška manja za neponovljivo uzorkovanje, što uvjetuje njegovu širu upotrebu.

Granična pogreška uzorkovanja

S obzirom da je na temelju uzorka istraživanja nemoguće točno procijeniti parametar koji se proučava (primjerice srednju vrijednost) opće populacije, potrebno je pronaći granice unutar kojih se on nalazi. U određenom uzorku razlika može biti veća, manja ili jednaka. Svako odstupanje od ima određenu vjerojatnost. U istraživanju uzorka, stvarna vrijednost u populaciji je nepoznata. Poznavajući prosječnu pogrešku uzorkovanja, s određenom je vjerojatnošću moguće procijeniti odstupanje uzoračke sredine od opće i utvrditi granice unutar kojih se nalazi proučavani parametar (u ovom slučaju srednja vrijednost) u općoj populaciji. Odstupanje karakteristike uzorka od opće naziva se granična pogreška uzorkovanja. Određuje se kao dio prosječne pogreške s danom vjerojatnošću, tj.

= t, (1.38)

Gdje t - faktor povjerenja, ovisno o vjerojatnosti kojom se utvrđuje najveća pogreška uzorkovanja.

Vjerojatnost pojave određene pogreške uzorkovanja nalazi se pomoću teorema teorije vjerojatnosti. Prema teoremu P. L. Čebiševa, uz dovoljno veliku veličinu uzorka i ograničenu varijancu populacije, vjerojatnost da će razlika između srednje vrijednosti uzorka i srednje vrijednosti populacije biti proizvoljno mala je blizu jedan:

A. M. Ljapunov je to dokazao Bez obzira na prirodu distribucije populacije, kako se veličina uzorka povećava, distribucija vjerojatnosti pojave jedne ili druge vrijednosti uzorka srednje vrijednosti približava se normalnoj distribuciji. To je takozvani središnji granični teorem. Posljedično, vjerojatnost odstupanja uzorka srednje vrijednosti od opće sredine, tj. vjerojatnost pojave dane ograničavajuće pogreške također se pokorava navedenom zakonu i može se pronaći kao funkcija t koristeći Laplaceov integral vjerojatnosti:

gdje je normalizirano odstupanje uzorka od opće sredine.

Vrijednosti Laplaceovog integrala za različite t izračunati i dostupni u posebnim tablicama, čija se kombinacija naširoko koristi u statistici:

Vjerojatnost

Nakon što postavite određenu razinu vjerojatnosti, odaberite vrijednost normaliziranog odstupanja t i odrediti najveću pogrešku uzorkovanja pomoću formule (1.38)

U ovom slučaju najčešće se koristi = 0,95 i t= 1,96, tj. Vjeruju da je uz vjerojatnost od 95% granična pogreška uzorkovanja dvostruko veća od prosjeka. Stoga se u statistici vrijednost t ponekad nazivaju faktor najveće pogreške u odnosu na prosjek.

Nakon izračuna granične pogreške, nalazi se interval pouzdanosti generalizirajuće karakteristike populacije. Takav interval za opću prosječnu vrijednost ima oblik

(-) (+), (1.39)

a za opći udio je slično

(w-)p(w+). (1.40)

Posljedično, tijekom selektivnog promatranja ne utvrđuje se jedna točna vrijednost generalizirajuće karakteristike opće populacije, već samo njezin interval pouzdanosti sa zadanom razinom vjerojatnosti. I to je ozbiljan nedostatak metode uzorkovanja statistike.

Određivanje veličine uzorka

Prilikom izrade uzorka programa promatranja ponekad se specificira određena vrijednost maksimalne pogreške s razinom vjerojatnosti. Minimalna veličina uzorka koja osigurava navedenu točnost ostaje nepoznata. Može se dobiti iz formula za prosječnu i graničnu pogrešku, ovisno o vrsti uzorka. Dakle, zamjenjujući prvo formule (1.35), a zatim (1.36) u formulu (1.38) i rješavajući je za veličinu uzorka, dobivamo sljedeće formule

za ponovno uzorkovanje

za uzorkovanje bez ponavljanja

Osim toga, za statističke vrijednosti s kvantitativnim karakteristikama potrebno je znati varijancu uzorka, ali ni ona nije poznata na početku izračuna. Stoga se uzima otprilike na jedan od sljedećih načina:

uzeto je iz prethodnih promatranja uzorka;

prema pravilu prema kojem raspon varijacije odgovara približno šest standardnih devijacija (R/ = 6 ili R/ = 6; odavde D = R 2 /36);

Prema pravilu "tri sigme", prema kojem prosječna vrijednost odgovara približno tri standardne devijacije (/ = 3; dakle = /3 ili D = 2 /9).

Pri proučavanju nenumeričkih karakteristika, čak i ako ne postoje približne informacije o udjelu uzorka, prihvaća se w= 0,5, što prema formuli (1.37) odgovara varijanci veličine uzorka Dv = 0,5(1-0,5) = 0,25.