Biografije Karakteristike Analiza

Uzorci i metode za njihovo dobijanje. Šta je reprezentativni uzorak? Potrebna veličina uzorka

Empirijski se smatraju jednim od glavnih sredstava proučavanja društvenih odnosa i procesa. Oni pružaju pouzdane, potpune i reprezentativne informacije.

Specifičnost tehnika

Empirijski omogućavaju sticanje znanja o fiksiranju činjenica. Oni doprinose uspostavljanju i generalizaciji okolnosti kroz posrednu ili direktnu registraciju događaja svojstvenih proučavanim odnosima, predmetima, pojavama. Empirijske metode se razlikuju od teorijskih po tome što je predmet analize:

  1. Ponašanje pojedinaca i njihovih grupa.
  2. Proizvodi ljudske aktivnosti.
  3. Verbalni postupci pojedinaca, njihovi sudovi, stavovi, mišljenja.

Uzorci studija

Empirijska studija je uvijek usmjerena na dobijanje objektivnih i tačnih informacija, kvantitativnih podataka. S tim u vezi, kada se provodi, potrebno je osigurati reprezentativnost informacija. Shodno tome, tačno set za uzorkovanje. to To znači da se selekcija mora izvršiti na način da podaci dobijeni od uže grupe odražavaju trendove koji se dešavaju u opštoj masi ispitanika. Na primjer, kada se anketira 200-300 ljudi, dobijeni podaci se mogu ekstrapolirati na cjelokupno urbano stanovništvo. Indikatori skupa uzorka omogućavaju drugačiji pristup proučavanju socio-ekonomskih procesa u regionu, u zemlji u cjelini.

Terminologija

Kako bi se bolje razumjela pitanja vezana za uzorkovana istraživanja, neke definicije treba razjasniti. Jedinica posmatranja je direktni izvor informacija. To može biti pojedinac, grupa, dokument, organizacija itd. Opšta populacija je set jedinica za posmatranje. Svi bi trebali biti relevantni za problem koji se proučava. predmet direktnog analiziranja. Studija se provodi u skladu sa razvijenim metodama prikupljanja informacija. Da biste odredili ovaj udio u cijelom nizu ispitanika, koristite koncept "uzorka". Njegovo svojstvo da odražava ključne parametre ukupne mase ljudi naziva se reprezentativnost. U nekim slučajevima nema poklapanja. Tada se govori o grešci reprezentativnosti.

Osiguravanje reprezentativnosti

Pitanja koja se odnose na to detaljno su razmotrena u okviru statistike. Problemi su složeni jer, s jedne strane, govorimo o davanju kvantitativne reprezentacije koja daje opšta populacija. to znači, posebno, da grupe ispitanika treba da budu zastupljene u optimalnom broju. Količina mora biti dovoljna za normalan prikaz. S druge strane, to također znači i kvalitativno predstavljanje. Ona pretpostavlja određenu predmetnu kompoziciju, koja se formira set za uzorkovanje. to znači da se, na primjer, ne može razgovarati o reprezentativnosti ako se intervjuišu samo muškarci ili samo žene, stariji ili mladi ljudi. Studiju treba provesti unutar svih zastupljenih grupa.

Karakteristika uzorka

Ovaj pojam se razmatra u dva aspekta. Prije svega, definira se kao kompleks elemenata iz opšteg niza ljudi čije se mišljenje proučava – to je set za uzorkovanje. to takođe proces stvaranja određene kategorije ispitanika sa potrebnom reprezentativnošću. U praksi postoji nekoliko vrsta i tipova selekcije. Hajde da ih razmotrimo.

Vrste

postoje tri od njih:

  1. spontano set za uzorkovanje. to skup ispitanika odabranih na dobrovoljnoj osnovi. Istovremeno, osigurava se pristupačnost ulaska jedinica iz ukupne mase ljudi u određenu studijsku grupu. Spontana selekcija se u praksi često koristi. Na primjer, u anketama u štampi, poštom. Međutim, ovaj pristup ima značajan nedostatak. Nemoguće je kvalitativno predstaviti cjelokupni volumen općeg uzorka. Ova tehnika se primjenjuje s obzirom na ekonomičnost. U nekim anketama ova opcija je jedina moguća.
  2. spontano set za uzorkovanje. to jedna od glavnih metoda korišćenih u istraživanju. Ključni princip takve selekcije je pružanje mogućnosti svakoj jedinici posmatranja da iz opšte mase pojedinaca pređe u užu grupu. Za to se koriste različite metode. Na primjer, to može biti lutrija, mehanički odabir, tablica slučajnih brojeva.
  3. Stratificirano (kvotno) uzorkovanje. Zasniva se na formiranju kvalitativnog modela ukupne mase ispitanika. Nakon toga se vrši selekcija jedinica u populaciji uzorka. Na primjer, izvodi se prema dobi ili spolu, prema grupama stanovništva i tako dalje.

Vrste

Postoje sljedeće selekcije:

Dodatno

Uzorci također mogu biti zavisni i nezavisni. U prvom slučaju, postupak eksperimenta i rezultati koji će se tokom njega dobiti za jednu grupu ispitanika imaju određeni uticaj na drugu. Shodno tome, nezavisni uzorci ne podrazumijevaju takav utjecaj. Ovdje, međutim, treba napomenuti jednu važnu tačku. Jedna grupa ispitanika, za koju je psihološki pregled obavljen dva puta (čak i ako je bio usmjeren na proučavanje različitih kvaliteta, karakteristika, znakova), podrazumevano će se smatrati zavisnom.

Probabilističke selekcije

Razmotrite neke vrste uzoraka:

  1. Slučajno. Pretpostavlja homogenost ukupne populacije, jednu vjerovatnoću dostupnosti svih komponenti, kao i prisustvo kompletne liste elemenata. Po pravilu se u procesu odabira koristi tabela sa slučajnim brojevima.
  2. Mehanički. Ova vrsta slučajnog uzorkovanja uključuje redoslijed prema određenom atributu. Na primjer, po broju telefona, po abecednom redu, po datumu rođenja itd. Prva komponenta se bira nasumično. Zatim, svaki k element se bira korakom n. Vrijednost ukupne populacije će biti N=k*n.
  3. Stratificirana. Ovaj uzorak se koristi kada je ukupna populacija heterogena. Potonji je podijeljen na slojeve (grupe). U svakom od njih odabir se vrši mehanički ili nasumično.
  4. Serial. Grupe se biraju nasumično. Unutar njih predmeti se proučavaju do kraja.

Nevjerovatni odabiri

Oni uključuju uzorkovanje ne na osnovu slučajnosti, već na subjektivnim osnovama: tipičnost, pristupačnost, jednaka zastupljenost i tako dalje. Izbor u ovoj kategoriji uključuje:

Nuance

Potrebna je tačna i potpuna lista jedinica stanovništva kako bi se osigurala reprezentativnost. Objekti posmatranja su, po pravilu, jedna osoba. Odabir sa liste najbolje je izvršiti numeriranjem jedinica i korištenjem tabele sa slučajnim brojevima. Ali kvazi-slučajna metoda se također često koristi. Pretpostavlja odabir sa liste svakog n elementa.

Faktori uticaja

Obim populacije je broj njenih jedinica. Prema mišljenju stručnjaka, ne mora biti velika. Bez sumnje, što je veći broj ispitanika, to je rezultat tačniji. Međutim, u isto vrijeme, veliki volumen ne garantuje uvijek uspjeh. Na primjer, to se dešava kada je ukupan niz ispitanika heterogen. Homogenim će se smatrati takav skup u kojem je kontrolirani parametar, na primjer, nivo pismenosti, raspoređen ravnomjerno, odnosno nema praznina ili kondenzacija. U ovom slučaju biće dovoljno intervjuisati nekoliko ljudi. Na osnovu rezultata ankete, moći će se zaključiti da većina ljudi ima normalan nivo pismenosti. Iz ovoga proizilazi da na reprezentativnost informacija ne utječu kvantitativne karakteristike, već kvalitativne karakteristike populacije – posebno nivo njene homogenosti.

Greške

Oni predstavljaju odstupanje prosječnih parametara populacije uzorka od vrijednosti ukupne mase ispitanika. U praksi se greške određuju uparivanjem. Prilikom anketiranja odraslih obično se koriste podaci iz popisa stanovništva, statistička evidencija i rezultati prošlih istraživanja. Kontrolni parametri su obično poređenje prosječnih vrijednosti populacija (opće i uzorka), utvrđivanje greške u skladu s tim i smanjenje ovog odstupanja naziva se kontrola reprezentativnosti.

zaključci

Istraživanje uzoraka je način prikupljanja podataka o stavovima i ponašanju ljudi putem ankete posebno odabranih grupa ispitanika. Ova tehnika se smatra pouzdanom i ekonomičnom, iako zahtijeva određenu tehniku. Uzorak je osnova. Djeluje kao određeni udio u ukupnoj masi ljudi. Selekcija se vrši posebnim tehnikama i ima za cilj dobivanje informacija o cjelokupnoj populaciji. Ovo drugo, zauzvrat, predstavljaju svi mogući društveni objekti ili grupa koja će se proučavati. Često je populacija toliko velika da bi bilo prilično skupo i glomazno provesti anketu svakog njenog člana. Stoga se koristi smanjeni model. Uzorak uključuje sve one koji primaju upitnike, koji se nazivaju ispitanicima, koji, u stvari, djeluju kao objekt proučavanja. Jednostavno rečeno, sastoji se od mnogo ljudi koji se intervjuišu.

Zaključak

Ciljevi istraživanja određuju specifične kategorije uključene u populaciju. Što se tiče specifičnog udjela u ukupnoj masi ljudi, njega čine ispitanici uključeni u grupe pomoću matematičkih proračuna. Za odabir jedinica neophodan je opis objekta početne populacije. Nakon utvrđivanja broja subjekata, utvrđuje se prijem odnosno način formiranja grupa. Rezultati ankete će nam omogućiti da opišemo osobinu koja se proučava u odnosu na sve predstavnike opšte mase ljudi. Kao što pokazuje praksa, uglavnom se provode selektivne, a ne kontinuirane studije.

U teoriji metode uzorkovanja razvijene su različite metode selekcije i vrste uzorkovanja kako bi se osigurala reprezentativnost. Ispod metod selekcije razumiju proceduru odabira jedinica iz opće populacije. Postoje dvije metode odabira: ponovljena i neponovljena. At ponovljeno U procesu selekcije, svaka nasumično odabrana jedinica se nakon ispitivanja vraća u opštu populaciju i, tokom naknadne selekcije, može ponovo pasti u uzorak. Ova metoda selekcije izgrađena je prema šemi „vrata lopte”: vjerovatnoća ulaska u uzorak za svaku jedinicu opće populacije se ne mijenja bez obzira na broj odabranih jedinica. At ne-repetitivne selekcije, svaka jedinica odabrana nasumično, nakon njenog ispitivanja, ne vraća se opštoj populaciji. Ova metoda selekcije izgrađena je prema šemi „nevraćene lopte”: vjerovatnoća ulaska u uzorak za svaku jedinicu opće populacije raste kako se vrši selekcija.

Ovisno o metodologiji za formiranje populacije uzorka, razlikuju se sljedeće glavne: tipovi uzoraka:

zapravo nasumično;

mehanički;

tipično (stratificirano, zonirano);

serijski (ugniježđeni);

kombinovano;

višestepeni;

višefazni;

međusobno prožimajući.

Stvarni slučajni uzorak formira se u strogom skladu sa naučnim principima i pravilima slučajnog odabira. Da bi se dobio odgovarajući slučajni uzorak, opća populacija se striktno dijeli na jedinice uzorka, a zatim se bira dovoljan broj jedinica slučajnim redoslijedom koji se ponavlja ili se ne ponavlja.

Slučajni redosled je kao izvlačenje žreba. U praksi se najčešće koristi kada se koriste posebne tablice slučajnih brojeva. Ako, na primjer, treba izabrati 40 jedinica iz populacije koja sadrži 1587 jedinica, tada se iz tabele bira 40 četvorocifrenih brojeva koji su manji od 1587.

U slučaju kada je stvarni slučajni uzorak organizovan kao ponovljeni, standardna greška se izračunava prema formuli (6.1). Kod metode uzorkovanja koja se ne ponavlja, formula za izračunavanje standardne greške bit će:


gdje je 1 - n/ N- udio jedinica opšte populacije koje nisu bile uključene u uzorak. Budući da je ova proporcija uvijek manja od jedan, greška u nerepetitivnom odabiru, pod jednakim uvjetima, uvijek je manja nego u ponovljenom odabiru. Selekciju koja se ne ponavlja je lakše organizirati od ponovljene selekcije, a koristi se mnogo češće. Međutim, vrijednost standardne greške u uzorkovanju bez ponavljanja može se odrediti jednostavnijom formulom (5.1). Takva zamjena je moguća ako je udio jedinica opće populacije koje nisu uključene u uzorak velik i stoga je vrijednost blizu jedan.

Formiranje uzorka u strogom skladu s pravilima slučajnog odabira je praktički vrlo teško, a ponekad i nemoguće, jer je prilikom korištenja tablica slučajnih brojeva potrebno numerisati sve jedinice opće populacije. Često je opća populacija toliko velika da je izuzetno teško i nesvrsishodno izvršiti takav preliminarni rad, stoga se u praksi koriste druge vrste uzoraka, od kojih svaki nije striktno slučajan. Međutim, oni su organizovani na način da je obezbeđena maksimalna aproksimacija uslovima slučajnog odabira.

Kada čisto mehaničko uzorkovanje cjelokupna populacija jedinica mora se prije svega prikazati u obliku liste jedinica selekcije, sastavljene nekim neutralnim redoslijedom u odnosu na osobinu koja se proučava, na primjer, abecednim redom. Zatim se lista jedinica uzorkovanja dijeli na onoliko jednakih dijelova koliko je potrebno za odabir jedinica. Nadalje, prema unaprijed određenom pravilu, koje nije vezano za varijaciju osobine koja se proučava, iz svakog dijela liste bira se po jedna jedinica. Ova vrsta uzorkovanja možda neće uvijek omogućiti slučajan odabir, a rezultirajući uzorak može biti pristrasan. Ovo se objašnjava činjenicom da, prvo, poredak jedinica opće populacije može imati element neslučajne prirode. Drugo, uzorkovanje iz svakog dijela populacije, ako je porijeklo netačno utvrđeno, također može dovesti do greške pristranosti. Međutim, praktički je lakše organizirati mehanički uzorak nego pravi slučajni, a ova vrsta uzorkovanja se najčešće koristi u uzorkovnim istraživanjima. Standardna greška za mehaničko uzorkovanje određena je formulom za stvarno nasumično neponovljivo uzorkovanje (6.2).

Tipičan (zonirani, stratificirani) uzorak ima dva cilja:

obezbijediti zastupljenost u uzorku odgovarajućih tipičnih grupa opšte populacije prema karakteristikama od interesa za istraživača;

povećati tačnost rezultata ankete uzorka.

Sa tipičnim uzorkom, prije početka njegovog formiranja, opća populacija jedinica se dijeli na tipične grupe. U ovom slučaju, vrlo važna stvar je ispravan izbor atributa grupisanja. Odabrane tipične grupe mogu sadržavati isti ili različit broj selekcionih jedinica. U prvom slučaju, skup uzoraka se formira sa istim udjelom selekcije iz svake grupe, u drugom slučaju s udjelom proporcionalnim njegovom udjelu u opštoj populaciji. Ako je uzorak formiran sa jednakim udjelom selekcije, u suštini on je ekvivalentan broju pravilno slučajnih uzoraka iz manjih populacija, od kojih je svaka tipična grupa. Odabir iz svake grupe se vrši slučajnim (ponovljeni ili neponovljeni) ili mehaničkim redoslijedom. Sa tipičnim uzorkom, kako sa jednakim tako i sa nejednakim udjelom selekcije, moguće je eliminirati utjecaj međugrupne varijacije proučavane osobine na tačnost njenih rezultata, jer osigurava obaveznu zastupljenost svake od tipičnih grupa u uzorku. set. Standardna greška uzorka neće zavisiti od veličine ukupne varijanse? 2, i o vrijednosti prosjeka grupnih disperzija?i 2 . Budući da je srednja vrijednost grupnih varijansi uvijek manja od ukupne varijanse, onda će, uz ostale jednake stvari, standardna greška tipičnog uzorka biti manja od standardne greške samog slučajnog uzorka.

Prilikom određivanja standardne greške tipičnog uzorka koriste se sljedeće formule:

Sa ponovljenim odabirom

S metodom odabira koja se ne ponavlja:

je srednja vrijednost grupnih varijansi u populaciji uzorka.

Serijsko (ugniježđeno) uzorkovanje- ovo je tip formiranja uzorka, kada se nasumično biraju ne jedinice koje se ispituju, već grupe jedinica (serija, gnijezda). Unutar odabrane serije (gnijezda) ispituju se sve jedinice. Serijsko uzorkovanje je praktički lakše organizirati i provesti nego odabir pojedinačnih jedinica. Međutim, ovim tipom uzorkovanja, kao prvo, nije osigurana zastupljenost svake od serija i, drugo, ne eliminiše se uticaj međuserijalne varijacije proučavane osobine na rezultate istraživanja. Kada je ova varijacija značajna, to će povećati slučajnu grešku reprezentativnosti. Prilikom odabira vrste uzorka, istraživač mora uzeti u obzir ovu okolnost. Standardna greška serijskog uzorkovanja određena je formulama:

Metodom ponovljenog odabira -


gdje je međuserija varijansa populacije uzorka; r– broj odabranih serija;

Sa metodom selekcije koja se ne ponavlja -


gdje R je broj serija u općoj populaciji.

U praksi se koriste određene metode i vrste uzorkovanja u zavisnosti od svrhe i ciljeva uzorka istraživanja, kao i mogućnosti njihovog organizovanja i sprovođenja. Najčešće se koristi kombinacija metoda uzorkovanja i tipova uzorkovanja. Takvi uzorci se nazivaju kombinovano. Kombinacija je moguća u različitim kombinacijama: mehaničko i serijsko uzorkovanje, tipično i mehaničko, serijsko i stvarno nasumično itd. Kombinovano uzorkovanje se koristi kako bi se osigurala najveća reprezentativnost uz najniže troškove rada i novca za organizaciju i provođenje istraživanja.

Kod kombinovanog uzorka, vrijednost standardne greške uzorka sastoji se od grešaka u svakom njegovom koraku i može se odrediti kao kvadratni korijen zbira kvadrata grešaka odgovarajućih uzoraka. Dakle, ako se mehaničko i tipično uzorkovanje koristi u kombinaciji sa kombinovanim uzorkovanjem, tada se standardna greška može odrediti formulom


gdje?1 i? 2 su standardne greške mehaničkih i tipičnih uzoraka, respektivno.

Posebnost višestepeni izbor sastoji se u tome da se uzorak formira postepeno, prema fazama selekcije. U prvoj fazi, jedinice prve faze se biraju pomoću unaprijed određene metode i vrste selekcije. U drugoj fazi, iz svake jedinice prve faze koja je uključena u uzorak, biraju se jedinice druge faze i tako dalje. Broj faza može biti veći od dva. U posljednjoj fazi formira se uzorak čije su jedinice predmet istraživanja. Tako, na primjer, za uzorkovanje budžeta domaćinstava, u prvoj fazi se biraju teritorijalni subjekti zemlje, u drugoj fazi, okruzi u odabranim regijama, u trećoj fazi se biraju preduzeća ili organizacije u svakoj opštini. , i, konačno, u četvrtoj fazi se biraju porodice u odabranim preduzećima.

Dakle, skup za uzorkovanje se formira u posljednjoj fazi. Višestepeno uzorkovanje je fleksibilnije od drugih tipova, iako generalno daje manje precizne rezultate od jednostepenog uzorka iste veličine. Međutim, istovremeno ima jednu važnu prednost, a to je da je okvir uzorkovanja za višestepenu selekciju potrebno izgraditi u svakoj fazi samo za one jedinice koje su u uzorku, a to je veoma važno, jer postoji često nema gotovog okvira za uzorkovanje.

Standardna greška uzorkovanja u višestepenoj selekciji sa grupama različitih zapremina određena je formulom


gdje?1,?2,?3 , ... su standardne greške u različitim fazama;

n1, n2, n3 , .. . je broj uzoraka u odgovarajućim fazama selekcije.

U slučaju da grupe nisu iste po obimu, teoretski se ova formula ne može koristiti. Ali ako je ukupni udio odabira u svim fazama konstantan, tada u praksi proračun po ovoj formuli neće dovesti do izobličenja greške.

Essence višefazno uzorkovanje sastoji se u tome da se na osnovu inicijalno formiranog uzorka formira subuzorak, od ovog poduzorka sledeći subuzorak itd. Početni uzorak je prva faza, subuzorak iz njega je druga, itd. preporučljivo je koristiti polifazno uzorkovanje u slučajevima ako:

za proučavanje različitih karakteristika potrebna je nejednaka veličina uzorka;

fluktuacija proučavanih znakova nije ista i potrebna je tačnost različita;

za sve jedinice početnog uzorka (prva faza) treba prikupiti manje detaljne informacije, a za jedinice svake sljedeće faze detaljnije informacije.

Jedna od nesumnjivih prednosti višefaznog uzorkovanja je činjenica da se informacije dobijene u prvoj fazi mogu koristiti kao dodatne informacije u narednim fazama, informacije iz druge faze mogu se koristiti kao dodatne informacije u narednim fazama, itd. korištenje informacija povećava tačnost rezultata ankete uzorka.

Prilikom organiziranja višefaznog uzorkovanja može se koristiti kombinacija različitih metoda i tipova selekcije (tipično uzorkovanje sa mehaničkim uzorkovanjem, itd.). Višefazni izbor može se kombinovati sa višestepenim. U svakoj fazi, uzorkovanje može biti višefazno.

Standardna greška u višefaznom uzorku izračunava se za svaku fazu posebno u skladu sa formulama metode selekcije i vrste uzorka od kojeg je formiran njen uzorak.

Međuprožimajuće selekcije- to su dva ili više nezavisnih uzoraka iz iste opće populacije, formiranih istim metodom i tipom. Preporučljivo je pribjeći interpenetrirajućim uzorcima ako je potrebno dobiti preliminarne rezultate istraživanja uzoraka u kratkom vremenu. Interpenetrirajući uzorci su efikasni za evaluaciju rezultata istraživanja. Ako su rezultati isti u nezavisnim uzorcima, onda to ukazuje na pouzdanost podataka istraživanja uzorka. Uzorci koji se međusobno prožimaju ponekad se mogu koristiti za testiranje rada različitih istraživača tako što će svaki istraživač provesti različito istraživanje uzorka.

Standardna greška za interpenetrirajuće uzorke određena je istom formulom kao tipično proporcionalno uzorkovanje (5.3). Interpenetrirajući uzorci zahtijevaju više rada i novca nego drugi tipovi, tako da istraživač mora to uzeti u obzir prilikom kreiranja uzorka istraživanja.

Granične greške za različite metode selekcije i vrste uzorkovanja određuju se formulom? = t?, gdje? je odgovarajuća standardna greška.

Jedna od glavnih komponenti dobro osmišljene studije je definicija uzorka i šta je reprezentativni uzorak. To je kao na primjeru torte. Uostalom, nije potrebno pojesti cijeli desert da biste razumjeli njegov ukus? Mali dio je dovoljan.

Dakle, torta jeste stanovništva (odnosno, svi ispitanici koji se kvalifikuju za anketu). Može se izraziti teritorijalno, na primjer, samo stanovnici moskovske regije. Pol - samo žene. Ili imaju starosna ograničenja - Rusi su stariji od 65 godina.

Teško je izračunati broj stanovnika: potrebno je imati podatke iz popisa stanovništva ili anketa preliminarne procjene. Stoga se obično „procjenjuje“ opća populacija, a iz rezultirajućeg broja izračunavaju okvir za uzorkovanje ili uzorkovanje.

Šta je reprezentativni uzorak?

Uzorak je dobro definisan broj ispitanika. Njegova struktura treba da se što više poklapa sa strukturom opšte populacije u smislu glavnih karakteristika selekcije.

Na primjer, ako su potencijalni ispitanici cjelokupna populacija Rusije, gdje je 54% žena, a 46% muškaraca, onda uzorak treba da sadrži potpuno isti procenat. Ako se parametri poklapaju, onda se uzorak može nazvati reprezentativnim. To znači da su netačnosti i greške u studiji svedene na minimum.

Veličina uzorka se određuje uzimajući u obzir zahtjeve tačnosti i ekonomičnosti. Ovi zahtjevi su obrnuto proporcionalni jedni drugima: što je veći uzorak, to je rezultat tačniji. Štaviše, što je tačnost veća, to je potrebno više troškova za studiju. I obrnuto, što je uzorak manji, manje košta, to se manje precizno i ​​nasumičnije reprodukuju svojstva opće populacije.

Stoga, da bi izračunali količinu izbora, sociolozi su izmislili formulu i stvorili specijalni kalkulator:

Vjerovatnoća povjerenja i greška poverenja

šta znače pojmovi " nivo samopouzdanja" i " greška poverenja"? Nivo pouzdanosti je mjera tačnosti mjerenja. Greška u povjerenju je moguća greška u rezultatima studije. Na primjer, sa općom populacijom od više od 500,00 ljudi (na primjer, koji žive u Novokuznjecku), uzorak će biti 384 osobe sa nivoom pouzdanosti od 95% i greškom od 5% OR (sa intervalom pouzdanosti od 95 ± 5%).

Šta iz ovoga slijedi? Prilikom provođenja 100 studija sa takvim uzorkom (384 osobe), u 95 posto slučajeva dobijeni odgovori će, prema zakonima statistike, biti u granicama ± 5% od originala. I dobićemo reprezentativan uzorak sa minimalnom verovatnoćom statističke greške.

Nakon što se izvrši izračun veličine uzorka, možete vidjeti da li ima dovoljno ispitanika u demo verziji panela upitnika. Možete saznati više o tome kako provesti panel anketu.

Plan:

1. Problemi matematičke statistike.

2. Tipovi uzoraka.

3. Metode odabira.

4. Statistička distribucija uzorka.

5. Empirijska funkcija distribucije.

6. Poligon i histogram.

7. Numeričke karakteristike varijacione serije.

8. Statističke procjene parametara distribucije.

9. Intervalne procjene parametara distribucije.

1. Zadaci i metode matematičke statistike

Math statistics je grana matematike koja se bavi metodama prikupljanja, analize i obrade rezultata statističkih opservacijskih podataka u naučne i praktične svrhe.

Neka se zahtijeva proučavanje skupa homogenih objekata s obzirom na neku kvalitativnu ili kvantitativnu osobinu koja karakterizira te objekte. Na primjer, ako postoji serija dijelova, tada standard dijela može poslužiti kao kvalitativni znak, a kontrolirana veličina dijela može poslužiti kao kvantitativni znak.

Ponekad se provodi kontinuirana studija, tj. ispitati svaki objekt s obzirom na željenu osobinu. U praksi, sveobuhvatna anketa se rijetko koristi. Na primjer, ako populacija sadrži vrlo veliki broj objekata, tada je fizički nemoguće provoditi kontinuirano istraživanje. Ako je istraživanje objekta povezano s njegovim uništenjem ili zahtijeva velike materijalne troškove, onda nema smisla provoditi potpunu anketu. U takvim slučajevima, ograničen broj objekata (skup uzoraka) se nasumično bira iz cijele populacije i podvrgava njihovom proučavanju.

Osnovni zadatak matematičke statistike je proučavanje cjelokupne populacije na osnovu podataka uzorka, u zavisnosti od cilja, tj. proučavanje vjerojatnosnih svojstava populacije: zakon raspodjele, numeričke karakteristike itd. za donošenje menadžerskih odluka u uslovima neizvesnosti.

2. Tipovi uzoraka

Populacija je skup objekata od kojih je napravljen uzorak.

Uzorak populacije (uzorak) je kolekcija nasumično odabranih objekata.

Veličina populacije je broj objekata u ovoj kolekciji. Obim opšte populacije je označen N, selektivno - n.

primjer:

Ako se od 1000 dijelova odabere 100 dijelova za ispitivanje, onda je obim opšte populacije N = 1000 i veličinu uzorka n = 100.

Uzorkovanje se može obaviti na dva načina: nakon što se objekat odabere i posmatra nad njim, može se vratiti ili ne vratiti opštoj populaciji. To. Uzorci se dijele na ponovljene i neponovljene.

Ponovljenopozvao uzorkovanje, na kojem se odabrani objekt (prije odabira sljedećeg) vraća općoj populaciji.

Neponavljanjepozvao uzorkovanje, pri čemu se odabrani objekt ne vraća općoj populaciji.

U praksi se obično koristi slučajni odabir koji se ne ponavlja.

Da bi podaci uzorka mogli sa dovoljno pouzdanosti suditi o osobini od interesa u opštoj populaciji, neophodno je da je objekti uzorka ispravno predstavljaju. Uzorak mora ispravno predstavljati proporcije populacije. Uzorak mora biti predstavnik (zastupnik).

Na osnovu zakona velikih brojeva, može se tvrditi da će uzorak biti reprezentativan ako se izvodi nasumično.

Ako je veličina opće populacije dovoljno velika, a uzorak je samo beznačajan dio ove populacije, onda se briše razlika između ponovljenih i neponovljenih uzoraka; u graničnom slučaju, kada se uzme u obzir beskonačna opšta populacija, a uzorak ima konačnu veličinu, ova razlika nestaje.

primjer:

U američkom časopisu Literary Review, koristeći statističke metode, napravljena je studija o prognozama u vezi sa ishodom predstojećih američkih predsjedničkih izbora 1936. godine. Kandidati za ovo radno mjesto bili su F.D. Roosevelt i A. M. Landon. Priručnici telefonskih pretplatnika uzeti su kao izvor za opću populaciju proučavanih Amerikanaca. Od toga je nasumično odabrano 4 miliona adresa, na koje su urednici magazina poslali razglednice sa molbom da izraze svoj stav prema kandidatima za predsjednika. Nakon obrade rezultata ankete, magazin je objavio sociološku prognozu da će Landon sa velikom razlikom pobijediti na predstojećim izborima. I... pogrešio sam: Ruzvelt je pobedio.
Ovaj primjer se može posmatrati kao primjer nereprezentativnog uzorka. Činjenica je da je u Sjedinjenim Državama u prvoj polovini dvadesetog vijeka samo imućni dio stanovništva, koji je podržavao Landonove stavove, imao telefone.

3. Metode odabira

U praksi se koriste različite metode selekcije koje se mogu podijeliti u 2 tipa:

1. Selekcija ne zahtijeva podjelu populacije na dijelove (a) jednostavno nasumično bez ponavljanja; b) jednostavno nasumično ponavljanje).

2. Selekcija, u kojoj se opća populacija dijeli na dijelove. (a) tipičan izbor; b) mehanički odabir; u) serial izbor).

Simple random nazovi ovo izbor, u kojem se objekti izdvajaju jedan po jedan iz cjelokupne opće populacije (nasumično).

Tipičnopozvao izbor, u kojoj se objekti ne biraju iz cjelokupne opće populacije, već iz svakog od njenih „tipičnih“ dijelova. Na primjer, ako je dio napravljen na više strojeva, tada se odabir ne vrši iz cijelog skupa dijelova proizvedenih na svim strojevima, već iz proizvoda svake mašine posebno. Takva selekcija se koristi kada osobina koja se ispituje primjetno fluktuira u različitim "tipičnim" dijelovima opće populacije.

Mehaničkipozvao izbor, u kojem je opća populacija "mehanički" podijeljena u onoliko grupa koliko ima objekata koje treba uključiti u uzorak, a iz svake grupe se bira po jedan objekt. Na primjer, ako trebate odabrati 20% dijelova koje je napravila mašina, tada se bira svaki 5. dio; ako je potrebno odabrati 5% dijelova - svaki 20. itd. Ponekad takav odabir možda neće osigurati reprezentativan uzorak (ako se izabere svaki 20. valjak za okretanje, a rezač se zamijeni odmah nakon odabira, tada će biti odabrani svi valjci okrenuti tupim rezačima).

Serialpozvao izbor, u kojem se objekti biraju iz opće populacije ne jedan po jedan, već u „serijama“, koji su podvrgnuti kontinuiranom istraživanju. Na primjer, ako proizvode proizvodi velika grupa automatskih mašina, onda se proizvodi samo nekoliko mašina podvrgavaju kontinuiranom ispitivanju.

U praksi se često koristi kombinirana selekcija u kojoj se kombiniraju gore navedene metode.

4. Statistička distribucija uzorka

Neka se uzorak uzme iz opće populacije, a vrijednost x 1-posmatrano jednom, x 2 -n 2 puta, ... x k - n k puta. n= n 1 +n 2 +...+n k je veličina uzorka. Uočene vrijednostipozvao opcije, a niz je varijanta napisana uzlaznim redoslijedom - varijacione serije. Broj zapažanjapozvao frekvencije (apsolutne frekvencije) i njihov odnos prema veličini uzorka- relativne frekvencije ili statističke vjerovatnoće.

Ako je broj opcija velik ili je uzorak napravljen iz kontinuirane opće populacije, tada se serija varijacija ne sastavlja po pojedinačnim vrijednostima bodova, već po intervalima vrijednosti opće populacije. Takva serija se zove interval. Dužina intervala mora biti jednaka.

Statistička distribucija uzorka naziva se lista opcija i njihovih odgovarajućih frekvencija ili relativnih frekvencija.

Statistička distribucija se također može specificirati kao niz intervala i njihovih odgovarajućih frekvencija (zbir frekvencija koje spadaju u ovaj interval vrijednosti)

Serija varijacija u tačkama može se predstaviti tabelom:

x i
x 1
x2

x k
n i
n 1
n 2

nk

Slično, može se predstaviti tačkasti varijacioni niz relativnih frekvencija.

i:

primjer:

Ispostavilo se da je broj slova u nekom tekstu X jednak 1000. Prvo slovo je bilo "i", drugo - slovo "i", treće - slovo "a", četvrto - "u". Zatim su došla slova "o", "e", "y", "e", "s".

Zapišimo mjesta koja oni zauzimaju u abecedi, odnosno imamo: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Nakon što ove brojeve poredimo rastućim redom, dobijamo niz varijacija: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Učestalosti pojavljivanja slova u tekstu: "a" - 75, "e" -87, "i" - 75, "o" - 110, "y" - 25, "s" - 8, "e" - 3, "yu" - 7, "I" - 22.

Sastavljamo tačkasti varijacioni niz frekvencija:

primjer:

Specificirana je distribucija frekvencije uzorkovanja volumena n = 20.

Napravite tačku varijacije serije relativnih frekvencija.

x i

2

6

12

n i

3

10

7

Rješenje:

Pronađite relativne frekvencije:


x i

2

6

12

w i

0,15

0,5

0,35

Prilikom konstruiranja intervalne distribucije postoje pravila za izbor broja intervala ili veličine svakog intervala. Ovdje je kriterij optimalni omjer: povećanjem broja intervala reprezentativnost se poboljšava, ali se povećava količina podataka i vrijeme za njihovu obradu. Razlika x max - x min između najveće i najmanje vrijednosti poziva se varijanta u velikim razmjerima uzorci.

Za brojanje intervala k obično primjenjuju empirijsku formulu Sturgess (što podrazumijeva zaokruživanje na najbliži prikladan cijeli broj): k = 1 + 3,322 log n .

Prema tome, vrijednost svakog intervala h može se izračunati pomoću formule:

5. Empirijska funkcija distribucije

Razmotrite neki uzorak iz opće populacije. Neka je poznata statistička distribucija frekvencija kvantitativnog atributa X. Uvedemo zapis: n xje broj opservacija u kojima je uočena vrijednost karakteristike manja od x; n je ukupan broj opservacija (veličina uzorka). Relativna frekvencija događaja X<х равна n x /n . Ako se x promijeni, tada se mijenja i relativna frekvencija, tj. relativna frekvencijan x /nje funkcija od x. Jer nalazi se empirijski, naziva se empirijski.

Empirijska funkcija distribucije (funkcija distribucije uzorka) pozovite funkciju, koji za svaki x određuje relativnu frekvenciju događaja X<х.


gdje je broj opcija manji od x,

n - veličina uzorka.

Za razliku od empirijske funkcije distribucije uzorka, naziva se funkcija distribucije F(x) populacije teorijska funkcija raspodjele.

Razlika između empirijske i teorijske funkcije distribucije je u tome što teorijska funkcija F (x) određuje vjerovatnoću događaja X f*(x) teži po vjerovatnoći vjerovatnoći F (x) ovog događaja. To jest, za veliki n f*(x) i F(x) se malo razlikuju jedno od drugog.

To. preporučljivo je koristiti empirijsku funkciju distribucije uzorka za približan prikaz teorijske (integralne) funkcije raspodjele opće populacije.

f*(x) ima sva svojstva F(x).

1. Vrijednosti f*(x) pripadaju intervalu.

2. F*(x) je neopadajuća funkcija.

3. Ako je najmanja varijanta, onda je F*(x) = 0, na x < x1; ako je x k najveća varijanta, onda je F*(x) = 1, za x > x k .

One. f*(x) služi za procjenu F(x).

Ako je uzorak dat varijacionim nizom, tada empirijska funkcija ima oblik:

Graf empirijske funkcije naziva se kumulativnim.

primjer:

Nacrtajte empirijsku funkciju preko date distribucije uzorka.


Rješenje:

Veličina uzorka n = 12 + 18 +30 = 60. Najmanja opcija je 2, tj. na x < 2. Događaj X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F*(x)=12/60=0,2 u 2 < x < 6. Događaj X<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Jer x=10 je onda najveća opcija F*(x) = 1 na x>10. Željena empirijska funkcija ima oblik:

kumulirati:


Kumulat omogućava da se razumeju informacije predstavljene grafički, na primer, da se odgovori na pitanja: „Odredite broj zapažanja u kojima je vrednost atributa bila manja od 6 ili ne manja od 6. F*(6) = 0,2 » Tada je broj opservacija u kojima je vrijednost uočene karakteristike manja od 6 0,2* n \u003d 0,2 * 60 \u003d 12. Broj zapažanja u kojima vrijednost uočene karakteristike nije manja od 6 je (1-0,2) * n = 0,8 * 60 = 48.

Ako je data serija varijacije intervala, tada se za kompilaciju empirijske funkcije distribucije pronađu sredine intervala i iz njih se dobije empirijska funkcija distribucije slično kao serija varijacija tačke.

6. Poligon i histogram

Radi jasnoće, izgrađeni su različiti grafovi statističke distribucije: polinom i histogram

Frekvencijski poligon- ovo je izlomljena linija, čiji segmenti povezuju tačke ( x 1 ;n 1 ), ( x 2 ;n 2 ),..., ( x k ; n k ), gdje su opcije, a frekvencije koje im odgovaraju.

Poligon relativnih frekvencija - ovo je izlomljena linija, čiji segmenti spajaju tačke ( x 1 ;w 1 ), (x 2 ;w 2 ),..., ( x k ;w k ), gdje su x i opcije, w i relativne frekvencije koje im odgovaraju.

primjer:

Nacrtajte polinom relativne frekvencije preko date distribucije uzorka:

Rješenje:

U slučaju kontinuiranog obilježja, preporučljivo je izgraditi histogram, za koji se interval, koji sadrži sve promatrane vrijednosti obilježja, podijeli na nekoliko parcijalnih intervala dužine h i za svaki parcijalni interval se nađe n i - zbir varijantnih frekvencija koje spadaju u i-ti interval. (Na primjer, kada mjerimo visinu ili težinu osobe, imamo posla sa kontinuiranim znakom).

Histogram frekvencije- ovo je stepenasta figura, koja se sastoji od pravougaonika, čije su osnove parcijalni intervali dužine h, a visine su jednake omjeru (gustina frekvencije).

Square i-ti parcijalni pravougaonik jednak je zbiru frekvencija varijante i-tog intervala, tj. područje histograma frekvencije je jednako zbiru svih frekvencija, tj. veličina uzorka.

primjer:

Dati su rezultati promjene napona (u voltima) u električnoj mreži. Sastavite niz varijacija, napravite poligon i histogram frekvencije ako su vrijednosti napona sljedeće: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 2 216, 220, 225, 212, 217, 220.

Rješenje:

Hajde da napravimo niz varijacija. Imamo n = 20, x min =212, x max =232.

Koristimo Sturgessovu formulu da izračunamo broj intervala.

Intervalni varijacioni niz frekvencija ima oblik:


Gustoća frekvencije

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Napravimo histogram frekvencija:

Konstruirajmo poligon frekvencija tako što ćemo prvo pronaći sredine intervala:


Histogram relativnih frekvencija nazovimo stepenastu figuru koja se sastoji od pravougaonika čije su osnove parcijalni intervali dužine h, a visine jednake omjeru w i/h (relativna gustina frekvencije).

Square I-ti parcijalni pravougaonik jednak je relativnoj frekvenciji varijante koja je upala u i-ti interval. One. površina histograma relativnih frekvencija jednaka je zbiru svih relativnih frekvencija, tj. jedinica.

7. Numeričke karakteristike varijacione serije

Razmotrite glavne karakteristike opće populacije i populacije uzorka.

Opća sekundarna naziva se aritmetička sredina vrijednosti karakteristike opće populacije.

Za različite vrijednosti x 1 , x 2 , x 3 , …, x n . znak opšte populacije volumena N imamo:

Ako vrijednosti atributa imaju odgovarajuće frekvencije N 1 +N 2 +…+N k =N , tada


srednja vrijednost uzorka naziva se aritmetička sredina vrijednosti karakteristike populacije uzorka.

Ako vrijednosti atributa imaju odgovarajuće frekvencije n 1 +n 2 +…+n k = n, tada


primjer:

Izračunajte srednju vrijednost uzorka za uzorak: x 1 = 51,12; x 2 = 51,07 x 3 = 52,95; x 4 = 52,93; x 5 = 51,1; x 6 = 52,98; x 7 = 52,29; x 8 \u003d 51,23; x 9 = 51,07; x10 = 51,04.

Rješenje:

Opća varijansa naziva se aritmetička sredina kvadrata odstupanja vrijednosti X karakteristike opće populacije od općeg prosjeka.

Za različite vrijednosti x 1 , x 2 , x 3 , …, x N predznaka populacije volumena N imamo:

Ako vrijednosti atributa imaju odgovarajuće frekvencije N 1 +N 2 +…+N k =N , tada

Opća standardna devijacija (standard) zove se kvadratni korijen opće varijanse

Varijanca uzorka naziva se aritmetička sredina kvadrata odstupanja posmatranih vrijednosti obilježja od srednje vrijednosti.

Za različite vrijednosti x 1 , x 2 , x 3 , ..., x n predznaka populacije uzorka volumena n imamo:


Ako vrijednosti atributa imaju odgovarajuće frekvencije n 1 +n 2 +…+n k = n, tada


Standardna devijacija uzorka (standardna) naziva se kvadratni korijen varijanse uzorka.


primjer:

Skup uzorkovanja je dat tablicom distribucije. Pronađite varijansu uzorka.


Rješenje:

Teorema: Varijanca je jednaka razlici između srednje vrednosti kvadrata vrednosti obeležja i kvadrata ukupne srednje vrednosti.

primjer:

Pronađite varijansu za ovu distribuciju.



Rješenje:

8. Statističke procjene parametara distribucije

Neka se opća populacija proučava nekim uzorkom. U ovom slučaju moguće je dobiti samo približnu vrijednost nepoznatog parametra Q, koji služi kao njegova procjena. Očigledno je da procjene mogu varirati od uzorka do uzorka.

Statistička procjenaQ* nepoznati parametar teorijske raspodjele naziva se funkcija f, koja ovisi o promatranim vrijednostima uzorka. Zadatak statističke procjene nepoznatih parametara iz uzorka je da iz dostupnih podataka statističkih opservacija konstruiše takvu funkciju koja bi dala najtačnije približne vrijednosti stvarnih, istraživaču nepoznatih, vrijednosti ovih parametara.

Statističke procjene se dijele na tačke i intervale, ovisno o načinu na koji su date (broj ili interval).

Tačkasta procjena se naziva statistička procjena. parametar Q teorijske raspodjele određen jednom vrijednošću parametra Q *=f (x 1 , x 2 , ..., x n), gdje jex 1 , x 2 , ...,xn- rezultati empirijskih opažanja kvantitativnog atributa X određenog uzorka.

Takve procjene parametara dobivene iz različitih uzoraka najčešće se razlikuju jedna od druge. Poziva se apsolutna razlika /Q *-Q / greška uzorkovanja (procjena).

Da bi statističke procjene dale pouzdane rezultate o procijenjenim parametrima, neophodno je da one budu nepristrasne, efikasne i konzistentne.

Point Estimation, čije je matematičko očekivanje jednako (nije jednako) procijenjenom parametru, naziva se nepromijenjen (pomaknut). M(Q *)=Q .

razlika M( Q *)-Q se poziva pristrasnost ili sistematska greška. Za nepristrasne procjene, sistematska greška je 0.

efikasan procjena Q *, koji, za datu veličinu uzorka n, ima najmanju moguću varijansu: D min(n = const). Efektivni procjenitelj ima najmanji raspon u poređenju sa drugim nepristrasnim i konzistentnim procjeniteljima.

Bogatise zove takva statistika procjena Q *, što za nteži po vjerovatnoći procijenjenom parametru Q , tj. sa povećanjem veličine uzorka n procjena teži po vjerovatnoći pravoj vrijednosti parametra Q.

Zahtjev konzistentnosti je u skladu sa zakonom velikih brojeva: što je više početnih informacija o objektu koji se proučava, to je tačniji rezultat. Ako je veličina uzorka mala, onda tačkasta procjena parametra može dovesti do ozbiljnih grešaka.

Bilo koji uzorak (volumenn) može se smatrati uređenim skupomx 1 , x 2 , ...,xn nezavisne identično distribuirane slučajne varijable.

Uzorak znači za različite zapremine uzoraka n iz iste populacije će biti različiti. Odnosno, srednja vrednost uzorka se može posmatrati kao slučajna varijabla, što znači da se može govoriti o distribuciji uzorke srednje vrednosti i njenim numeričkim karakteristikama.

Srednja vrijednost uzorka zadovoljava sve zahtjeve koji se postavljaju za statističke procjene, tj. daje nepristrasnu, efikasnu i dosljednu procjenu srednje vrijednosti stanovništva.

To se može dokazati. Dakle, varijansa uzorka je pristrasna procjena opšte varijanse, dajući joj potcijenjenu vrijednost. Odnosno, uz malu veličinu uzorka, to će dati sistematsku grešku. Za nepristrasnu, dosljednu procjenu, dovoljno je uzeti količinu, što se naziva ispravljena varijansa. tj.

U praksi, za procjenu opće varijanse, korigirana varijansa se koristi kada n < 30. U drugim slučajevima ( n >30) odstupanje od jedva primetno. Dakle, za velike vrijednosti n greška pristranosti se može zanemariti.

Takođe se može dokazati da je relativna frekvencijan i / n je nepristrasna i konzistentna procjena vjerovatnoće P(X=x i ). Empirijska funkcija distribucije F*(x ) je nepristrasna i konzistentna procjena teorijske funkcije raspodjele F(x)=P(X< x ).

primjer:

Pronađite nepristrasne procjene srednje vrijednosti i varijanse iz tabele uzorka.

x i
n i

Rješenje:

Veličina uzorka n=20.

Nepristrasna procjena matematičkog očekivanja je srednja vrijednost uzorka.


Da bismo izračunali nepristrasnu procjenu varijanse, prvo pronalazimo varijansu uzorka:

Sada pronađimo nepristrasnu procjenu:

9. Intervalne procjene parametara distribucije

Interval je statistička procjena određena dvjema numeričkim vrijednostima - krajevima intervala koji se proučava.

Broj> 0, gdje je | Q - Q*|< , karakterizira tačnost procjene intervala.

Trustedpozvao interval , što sa datom vjerovatnoćompokriva nepoznatu vrijednost parametra Q . Dopunjavanje intervala pouzdanosti skupom svih mogućih vrijednosti parametara Q pozvao kritično područje. Ako se kritično područje nalazi samo na jednoj strani intervala povjerenja, tada se naziva interval povjerenja jednostrano: lijevo, ako kritična regija postoji samo na lijevoj strani, i desnoruke osim na desnoj strani. U suprotnom, poziva se interval pouzdanosti bilateralni.

Pouzdanost ili nivo samopouzdanja, Q procjene (koristeći Q *) navedite vjerovatnoću kojom je ispunjena sljedeća nejednakost: | Q - Q*|< .

Najčešće se vjerovatnoća povjerenja unaprijed postavlja (0,95; 0,99; 0,999) i nameće joj se zahtjev da bude blizu jedan.

Vjerovatnoćapozvao vjerovatnoću greške ili nivo značajnosti.

Neka | Q - Q*|< , onda. To znači da sa vjerovatnoćommože se tvrditi da je prava vrijednost parametra Q pripada intervalu. Što je odstupanje manje, to je tačnija procjena.

Granice (krajevi) intervala pouzdanosti se nazivaju granice poverenja ili kritične granice.

Vrijednosti granica intervala povjerenja zavise od zakona raspodjele parametra Q*.

Vrijednost odstupanjanaziva se polovina širine intervala pouzdanosti tačnost procjene.

Metode za konstruisanje intervala pouzdanosti prvi je razvio američki statističar Y. Neumann. Preciznost procjene, vjerovatnoća povjerenja i veličina uzorka n međusobno povezani. Stoga, znajući specifične vrijednosti dvije veličine, uvijek možete izračunati treću.

Pronalaženje intervala povjerenja za procjenu matematičkog očekivanja normalne distribucije ako je poznata standardna devijacija.

Neka se napravi uzorak iz opšte populacije, u skladu sa zakonom normalne distribucije. Neka je poznata opšta standardna devijacija, ali je matematičko očekivanje teorijske distribucije nepoznato a().

Vrijedi sljedeća formula:

One. prema navedenoj vrijednosti odstupanjamoguće je pronaći s kojom vjerovatnoćom nepoznata opšta sredina pripada intervalu. I obrnuto. Iz formule se može vidjeti da s povećanjem veličine uzorka i fiksne vrijednosti vjerovatnoće pouzdanosti, vrijednost- smanjuje se, tj. povećava se tačnost procjene. Sa povećanjem pouzdanosti (vjerovatnoće povjerenja), vrijednost-povećava, tj. smanjuje se tačnost procjene.

primjer:

Kao rezultat testova, dobijene su sljedeće vrijednosti -25, 34, -20, 10, 21. Poznato je da se pridržavaju zakona normalne distribucije sa standardnom devijacijom od 2. Pronađite procjenu a* za matematičko očekivanje a. Nacrtajte interval pouzdanosti od 90% za to.

Rješenje:

Pronađimo nepristrasnu procjenu

Onda


Interval pouzdanosti za a ima oblik: 4 - 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Pronalaženje intervala povjerenja za procjenu matematičkog očekivanja normalne distribucije ako je standardna devijacija nepoznata.

Neka bude poznato da opća populacija podliježe zakonu normalne distribucije, gdje su a i. Preciznost pokrivanja intervala pouzdanosti sa pouzdanošćuprava vrijednost parametra a, u ovom slučaju, izračunava se po formuli:

, gdje je n veličina uzorka, , - Studentov koeficijent (treba ga naći iz datih vrijednosti n i iz tabele "Kritične tačke Studentove distribucije").

primjer:

Kao rezultat testova dobijene su sljedeće vrijednosti -35, -32, -26, -35, -30, -17. Poznato je da se pridržavaju zakona normalne distribucije. Naći interval pouzdanosti za populacijsku sredinu a sa nivoom pouzdanosti od 0,9.

Rješenje:

Pronađimo nepristrasnu procjenu.

Hajde da nađemo.

Onda

Interval pouzdanosti će poprimiti oblik(-29,2 - 5,62; -29,2 + 5,62) ili (-34,82; -23,58).

Pronalaženje intervala povjerenja za varijansu i standardnu ​​devijaciju normalne distribucije

Neka se slučajni uzorak volumena uzme iz nekog općeg skupa vrijednosti raspoređenih prema normalnom zakonun < 30 za koje se izračunavaju varijanse uzorka: pristrasnoi ispravljeno s 2. Zatim pronaći procjene intervala sa datom pouzdanošćuza opštu disperzijuDopšta standardna devijacijakoriste se sljedeće formule.


ili,

Vrijednosti- pronađite pomoću tablice vrijednosti kritičnih tačakaPearsonove distribucije.

Interval povjerenja za varijansu se nalazi iz ovih nejednakosti kvadriranjem svih dijelova nejednakosti.

primjer:

Provjeren je kvalitet 15 vijaka. Pod pretpostavkom da je greška u njihovoj proizvodnji podložna zakonu normalne distribucije i standardnoj devijaciji uzorkajednak 5 mm, pouzdano odreditiinterval pouzdanosti za nepoznati parametar

Granice intervala predstavljamo kao dvostruku nejednakost:

Krajevi dvostranog intervala povjerenja za varijansu mogu se odrediti bez izvođenja aritmetike za dati nivo povjerenja i veličinu uzorka koristeći odgovarajuću tablicu (Granice intervala povjerenja za varijansu u zavisnosti od broja stupnjeva slobode i pouzdanosti) . Da bi se to uradilo, krajevi intervala dobijeni iz tabele pomnože se ispravljenom varijansom s 2.

primjer:

Rešimo prethodni problem na drugačiji način.

Rješenje:

Pronađimo ispravljenu varijansu:

Prema tabeli „Granice intervala poverenja za varijansu u zavisnosti od broja stepeni slobode i pouzdanosti“ nalazimo granice intervala poverenja za varijansu nak=14 i: donja granica 0,513 i gornja granica 2,354.

Dobijene granice pomnožite sas 2 i izdvojimo korijen (jer nam je potreban interval povjerenja ne za varijansu, već za standardnu ​​devijaciju).

Kao što se može vidjeti iz primjera, vrijednost intervala povjerenja ovisi o načinu njegove konstrukcije i daje bliske, ali različite rezultate.

Za uzorke dovoljno velike veličine (n>30) granice intervala pouzdanosti za opštu standardnu ​​devijaciju mogu se odrediti formulom: - neki broj, koji je tabelarno dat u odgovarajućoj referentnoj tabeli.

Ako 1- q<1, то формула имеет вид:

primjer:

Rešimo prethodni problem na treći način.

Rješenje:

Prethodno pronađenos= 5,17. q(0,95; 15) = 0,46 - nalazimo prema tabeli.

onda:

Selektivno posmatranje primjenjuje se kada se primjenjuje kontinuirano posmatranje fizički nemoguće zbog velike količine podataka ili ekonomski nepraktično. Fizička nemogućnost se javlja, na primjer, kada se proučavaju putnički tokovi, tržišne cijene, porodični budžeti. Ekonomska nesvrsishodnost javlja se pri ocjenjivanju kvalitete robe povezane s njihovim uništenjem, na primjer, degustacija, ispitivanje čvrstoće cigle itd.

Statističke jedinice odabrane za posmatranje su okvir za uzorkovanje ili uzorkovanje, i cijeli njihov niz - opšta populacija(GS). Gde broj jedinica u uzorku odrediti n, a u cijelom HS-u - N. Stav n/N pozvao relativna veličina ili uzorak udjela.

Kvaliteta rezultata uzorkovanja ovisi o reprezentativnost uzorka, odnosno koliko je reprezentativan u GS. Da bi se osigurala reprezentativnost uzorka, potrebno je promatrati princip slučajnog odabira jedinica, koji pretpostavlja da na uključivanje HS jedinice u uzorak ne može utjecati nijedan drugi faktor osim slučajnosti.

Postoji 4 načina nasumične selekcije uzorkovati:

  1. Zapravo nasumično selekcija ili „metoda loto“, kada se serijski brojevi dodeljuju statističkim vrednostima, unose se na određene objekte (na primer, bure), koji se zatim mešaju u nekom kontejneru (na primer, u vrećici) i biraju nasumično. U praksi se ova metoda provodi pomoću generatora slučajnih brojeva ili matematičkih tablica slučajnih brojeva.
  2. Mehanički izbor, prema kojem svaki ( N/n)-ta vrijednost opće populacije. Na primjer, ako sadrži 100.000 vrijednosti, a želite da odaberete 1.000, tada će svaka 100.000 / 1000 = 100. vrijednost pasti u uzorak. Štaviše, ako nisu rangirani, onda se prvi bira nasumično od prvih sto, a brojevi ostalih će biti još stotinu više. Na primjer, ako je jedinica broj 19 bila prva, onda bi broj 119 trebao biti sljedeći, zatim broj 219, zatim broj 319, i tako dalje. Ako su jedinice stanovništva rangirane, tada se prvo bira #50, zatim #150, zatim #250 i tako dalje.
  3. Vrši se odabir vrijednosti iz heterogenog niza podataka slojevito(stratificirana) metoda, kada je opća populacija prethodno podijeljena u homogene grupe, na koje se primjenjuje slučajni ili mehanički odabir.
  4. Posebna metoda uzorkovanja je serial selekcija, u kojoj se slučajno ili mehanički ne biraju pojedinačne veličine, već njihove serije (sekvence od nekog broja do nekog u nizu), u okviru kojih se vrši kontinuirano posmatranje.

Kvalitet opservacija uzorka također zavisi od tip uzorkovanja: ponovljeno ili ne-repetitivne.
At ponovna selekcija statističke vrijednosti ili njihove serije koje su ušle u uzorak vraćaju se općoj populaciji nakon upotrebe, imajući priliku da uđu u novi uzorak. Istovremeno, sve vrijednosti opće populacije imaju istu vjerovatnoću da budu uključene u uzorak.
Odabir koji se ne ponavlja znači da se statističke vrijednosti ili njihove serije uključene u uzorak ne vraćaju općoj populaciji nakon upotrebe, te se stoga povećava vjerovatnoća ulaska u sljedeći uzorak za preostale vrijednosti potonjeg.

Uzorkovanje koje se ne ponavlja daje preciznije rezultate, pa se češće koristi. Ali postoje situacije kada se to ne može primijeniti (proučavanje putničkih tokova, potražnje potrošača itd.) i tada se vrši ponovni odabir.

Greške uzorkovanja

Skup uzorka se može formirati na osnovu kvantitativnog predznaka statističkih vrijednosti, kao i na alternativnoj ili atributivnoj osnovi. U prvom slučaju, generalizirajuća karakteristika uzorka je vrijednost označena sa , au drugom - uzorak udjela količine, označene w. U opštoj populaciji, odnosno: opšti prosek i opšta akcija str.

Razlike - i WR pozvao greška uzorkovanja, koji je podijeljen sa greška u registraciji i greška reprezentativnosti. Prvi dio greške uzorka proizlazi iz netačnih ili netačnih podataka zbog nerazumijevanja suštine pitanja, nepažnje matičara prilikom popunjavanja upitnika, obrazaca i sl. Prilično je lako otkriti i popraviti. Drugi dio greške proizlazi iz konstantnog ili spontanog nepoštovanja principa slučajnog odabira. Teško ga je otkriti i eliminirati, mnogo je veći od prvog i stoga mu se posvećuje glavna pažnja.

Vrijednost greške uzorkovanja može biti različita za različite uzorke iz iste opće populacije, stoga se u statistici utvrđuje prosječna greška ponovnog uzorkovanja i neuzorkovanja prema formulama:

Repeated;

- neponavljajuća;

Gdje je Dv varijansa uzorka.

Na primjer, u fabrici sa 1000 zaposlenih. Sprovedeno je 5% slučajnog nerepetitivnog uzorkovanja radi utvrđivanja prosječnog radnog staža zaposlenih. Rezultati posmatranja uzorkovanja dati su u prve dvije kolone sljedeće tabele:

X , godine
(radno iskustvo)

f , pers.
(broj zaposlenih u uzorku)

X i

X i f

U 3. koloni definiraju se sredine X intervala (kao polovina zbroja donje i gornje granice intervala), au 4. koloni proizvodi X i f za pronalaženje srednje vrijednosti uzorka korištenjem ponderirane aritmetike srednja formula:

143,0/50 = 2,86 (godine).

Izračunajte ponderiranu varijansu uzorka:
= 105,520/50 = 2,110.

Sada pronađimo prosječnu grešku neretestiranja:
= 0,200 (godine).

Iz formula za prosječne greške uzorkovanja može se vidjeti da je greška manja kod nerepetitivnog uzorkovanja i, kako je dokazano u teoriji vjerovatnoće, javlja se s vjerovatnoćom od 0,683 (tj. ako se uzme 1000 uzoraka iz jednog općeg populacije, tada u njih 683 greška neće premašiti prosječnu grešku uzorkovanja). Ova vjerovatnoća (0,683) nije velika, pa nije baš pogodna za praktične proračune, gdje je potrebna veća vjerovatnoća. Da biste odredili grešku uzorkovanja s većom vjerovatnoćom od 0,683, izračunajte marginalna greška uzorkovanja:

Gdje t– koeficijent pouzdanosti, u zavisnosti od vjerovatnoće sa kojom je određena granična greška uzorkovanja.

Vrijednosti faktora povjerenja t izračunate za različite vjerovatnoće i dostupne su u posebnim tabelama (Laplaceov integral), od kojih se sljedeće kombinacije široko koriste u statistici:

Vjerovatnoća 0,683 0,866 0,950 0,954 0,988 0,990 0,997 0,999
t 1 1,5 1,96 2 2,5 2,58 3 3,5

S obzirom na određeni nivo vjerovatnoće, vrijednost koja mu odgovara se bira iz tabele t i odredite graničnu grešku uzorkovanja po formuli.
U ovom slučaju, = 0,95 i t= 1,96, odnosno smatraju da je sa vjerovatnoćom od 95% marginalna greška uzorkovanja 1,96 puta veća od prosjeka. Ova vjerovatnoća (0,95) se razmatra standard i standardno se primjenjuje u proračunima.

U našem , definišemo marginalnu grešku uzorkovanja sa standardnom vjerovatnoćom od 95% (od uzimanja t= 1,96 za 95% šanse): = 1,96*0,200 = 0,392 (godine).

Nakon izračunavanja granične greške, nalazi se interval povjerenja generalizirajuće karakteristike opće populacije. Takav interval za opći prosjek ima oblik
Odnosno, prosječan radni staž u cijelom pogonu kreće se u rasponu od 2.468 do 3.252 godine.

Određivanje veličine uzorka

Kada se razvija program selektivnog posmatranja, ponekad im se daje specifična vrednost marginalne greške sa nivoom verovatnoće. Minimalna veličina uzorka koja obezbeđuje datu tačnost ostaje nepoznata. Može se dobiti iz formula za srednju i graničnu grešku, ovisno o vrsti uzorka. Dakle, zamjenom i u i, rješavajući ga s obzirom na veličinu uzorka, dobijamo sljedeće formule:
za ponovno uzorkovanje n =
bez ponovnog uzorkovanja n = .

Osim toga, za statističke vrijednosti s kvantitativnim karakteristikama mora se znati i varijansa uzorka, ali do početka proračuna ni ona nije poznata. Stoga je prihvaćeno otprilike jedno od sljedećeg načine(po prioritetu):

Kada se proučavaju nenumeričke karakteristike, čak i ako ne postoje približne informacije o frakciji uzorka, prihvata se w= 0,5, što prema formuli disperzije udjela odgovara disperziji uzorka u maksimalnoj veličini Dv = 0,5*(1-0,5) = 0,25.