Utvalg fra befolkningen generelt. Generelle og utvalgspopulasjoner

Et sett med homogene objekter studeres ofte i forhold til en eller annen egenskap som kjennetegner dem, målt kvantitativt eller kvalitativt.

For eksempel, hvis det er et parti med deler, kan den kvantitative egenskapen være størrelsen på delen i henhold til GOST, og den kvalitative egenskapen kan være standarden til delen.

Hvis det er nødvendig å sjekke dem for samsvar med standarder, tyr de noen ganger til en fullstendig undersøkelse, men i praksis brukes dette ekstremt sjelden. For eksempel hvis populasjonen inneholder enormt beløp objekter som studeres, er det praktisk talt umulig å gjennomføre en omfattende undersøkelse. I dette tilfellet velges et visst antall objekter (elementer) fra hele populasjonen og undersøkes. Dermed er det en generell populasjon og en utvalgspopulasjon.

Generelt er helheten av alle objekter som er gjenstand for inspeksjon eller undersøkelse. Den generelle befolkningen inneholder som regel endelig nummer elementer, men hvis det er for stort, så for å forenkle matematiske beregninger det antas at hele settet består av et uendelig antall objekter.

Et utvalg eller en utvalgsramme er en del av de valgte elementene fra hele populasjonen. Prøven kan være gjentatt eller ikke-repetitiv. I det første tilfellet returneres det til den generelle befolkningen, i det andre - ikke. I praktiske aktiviteter gjentakende tilfeldig utvalg brukes oftere.

Populasjonen og utvalget skal relateres til hverandre ved representativitet. Med andre ord, for å trygt kunne bestemme egenskapene til hele populasjonen basert på egenskapene til utvalgspopulasjonen, er det nødvendig at utvalgselementene representerer dem så nøyaktig som mulig. Utvalget skal med andre ord være representativt (representativt).

Et utvalg vil være mer eller mindre representativt dersom det trekkes tilfeldig fra en svært stort antall hele settet. Dette kan angis ut fra den såkalte store tallloven. I dette tilfellet har alle elementer like stor sannsynlighet for å bli inkludert i utvalget.

Tilgjengelig ulike alternativer utvalg. Alle disse metodene kan i utgangspunktet deles inn i to alternativer:

Alternativ 1. Elementer velges når populasjonen ikke er delt inn. Dette alternativet inkluderer enkle tilfeldige gjentatte og ikke-repeterende valg.
Alternativ 2. Den generelle befolkningen er delt inn i deler og elementer velges. Disse inkluderer typisk, mekanisk og seriell prøvetaking.

Enkelt tilfeldig - utvalg der elementer velges ett om gangen fra hele populasjonen tilfeldig.

Typisk er et utvalg der elementer ikke velges fra hele populasjonen, men fra alle dens "typiske" deler.

Mekanisk seleksjon er når hele befolkningen er delt inn i antall grupper lik tallet elementer som skal være i utvalget, og følgelig velges ett element fra hver gruppe. For eksempel, hvis du trenger å velge 25 % av delene som produseres av en maskin, velges hver fjerde del, og hvis du må velge 4 % av delene, velges hver tjuefemte del, og så videre. Det må sies at noen ganger kan mekanisk valg ikke gi tilstrekkelig

Seriell er et utvalg der elementer velges fra hele populasjonen i «serier», gjenstand for kontinuerlig forskning, og ikke ett om gangen. For eksempel, når deler produseres av et stort antall automatiske maskiner, utføres en omfattende undersøkelse kun i forhold til produktene til flere maskiner. Seriell seleksjon brukes hvis egenskapen som studeres har ubetydelig variasjon i ulike serier.

For å redusere feilen benyttes estimater befolkning bruker selektiv. Dessuten kan prøvetakingskontrollen være enten ett- eller flertrinns, noe som øker undersøkelsens pålitelighet.

I matematisk statistikk er det to grunnleggende begreper: populasjon og utvalg.
Et sett er et nesten tellbart sett med noen objekter eller elementer av interesse for forskeren;
En egenskap til en samling er en reell eller imaginær kvalitet som deles av noen av dens elementer. Egenskapen kan være tilfeldig eller ikke-tilfeldig.
En populasjonsparameter er en egenskap som kan kvantifiseres som en konstant eller variabel.
Et enkelt sett er preget av:
en egen eiendom (for eksempel: alle studenter i Russland);
en egen parameter i form av en konstant eller variabel (Alle kvinnelige studenter);
et system med ikke-overlappende (inkompatible) egenskaper, for eksempel: Alle lærere og elever ved Vladivostok-skoler.
Et komplekst sett er preget av:
et system med i det minste delvis overlappende egenskaper (studenter ved de psykologiske og matematiske fakultetene ved Far Eastern State University som ble uteksaminert fra skolen med en gullmedalje);
et system av uavhengige og avhengige parametere i aggregatet; på omfattende studie personlighet.
Homogen eller homogen er et sett, der alle egenskapene er iboende i hvert av dets elementer;
Heterogen eller heterogen er en populasjon hvis egenskaper er konsentrert i separate undergrupper av elementer.
En viktig parameter er volumet av befolkningen - antall elementer som danner den. Størrelsen på volumet avhenger av hvordan selve befolkningen er definert, og hvilke spørsmål som spesifikt interesserer oss. La oss si at vi er interessert følelsesmessig tilstand 1. års student i perioden med bestått spesifikk eksamen i økten. Da er befolkningen utslitt i løpet av en halvtime. Hvis vi er interessert i den emosjonelle tilstanden til alle 1.årsstudenter, så vil totaliteten være mye større, og enda større hvis vi tar den emosjonelle tilstanden til alle 1.årsstudentene ved dette universitetet osv. Det er klart at store bestander kun kan studeres selektivt.
Et utvalg er en viss del av befolkningen generelt, noe som studeres direkte.
Prøver er klassifisert etter representativitet, størrelse, utvalgsmetode og testdesign.
Representant - et utvalg som i tilstrekkelig grad gjenspeiler den generelle befolkningen i kvalitative og kvantitativt. Utvalget må i tilstrekkelig grad gjenspeile populasjonen, ellers vil ikke resultatene falle sammen med målene for studien.
Representativitet avhenger av volumet jo større volumet er, jo mer representativt er utvalget. I henhold til utvelgelsesmetoden.
Tilfeldig - hvis elementene er valgt tilfeldig. Siden de fleste metoder matematisk statistikk er basert på begrepet tilfeldig utvalg, så bør naturligvis utvalget være tilfeldig.
Ikke-tilfeldig prøvetaking:
mekanisk seleksjon, når hele populasjonen er delt inn i så mange deler som det er planlagte enheter i utvalget og så velges ett element fra hver del;
typisk utvalg - populasjonen er delt inn i homogene deler, og det tas et tilfeldig utvalg fra hver;
serieutvalg - populasjonen er delt inn i et stort antall serier av forskjellig størrelse, deretter lages et utvalg av en bestemt serie;
kombinert utvalg - de typer utvalg som vurderes kombineres på ulike stadier.
I henhold til testdesignet kan prøvene være uavhengige og avhengige. Basert på utvalgsstørrelse deles prøver inn i små og store. Små prøver inkluderer prøver der antall elementer n er 200 og gjennomsnittlig utvalg tilfredsstiller betingelsen 30Små prøver brukes til statistisk kontroll av kjente egenskaper til allerede studerte populasjoner.
Store prøver brukes til installasjon ukjente eiendommer og populasjonsparametere.

Mer om emne 1.3. Populasjon og utvalg:

7.2 Kjennetegn ved utvalget og populasjonen
1.6. Punkt- og intervallestimater av korrelasjonskoeffisienter for en normalfordelt populasjon

Befolkning - settet av personer som sosiologen søker å få informasjon om i sin forskning. Avhengig av hvor bredt forskningstemaet er, vil befolkningen være like bred.

Prøvepopulasjon – redusert befolkningsmodell; de som sosiologen deler ut spørreskjemaer til, som kalles respondenter, som til slutt er gjenstand for sosiologisk forskning.

Hvem som eksakt inngår i den generelle populasjonen bestemmes av målene for studien, og hvem som inngår i utvalgspopulasjonen bestemmes matematiske metoder. Hvis en sosiolog har til hensikt å se på den afghanske krigen gjennom deltakernes øyne, vil den generelle befolkningen inkludere alle afghanske soldater, men han må intervjue en liten del - utvalgsbefolkningen. For at utvalget skal reflektere den generelle befolkningen nøyaktig, følger sosiologen regelen: enhver afghansk soldat, uavhengig av bosted, arbeidssted, helsestatus og andre forhold, må ha samme sannsynlighet for å bli inkludert i utvalget befolkning.

Når sosionomen har bestemt seg for hvem han vil intervjue, bestemmer han prøvetakingsramme. Deretter avgjøres spørsmålet om type prøvetaking.

Prøvene er delt inn i tre store klasser:

EN) fast(folketellinger, folkeavstemninger). Alle enheter fra befolkningen er kartlagt;

b) tilfeldig;

V) ikke tilfeldig.

Tilfeldige og ikke-tilfeldige typer prøvetaking er på sin side delt inn i flere typer.

Tilfeldige inkluderer:

1) sannsynlighet;

2) systematisk;

3) sonet (stratifisert);

4) hekking

Ikke-tilfeldige inkluderer:

1) "spontan";

2) kvote;

3) "main array"-metoden.

En fullstendig og nøyaktig liste over enheter i utvalgspopulasjonsskjemaene prøvetakingsramme . Elementene beregnet for utvalg kalles utvalgsenheter . Prøvetakingsenheter kan være det samme som observasjonsenheter fordi observasjonsenhet anses å være et element i den generelle befolkningen som informasjon er direkte samlet inn fra. Vanligvis er observasjonsenheten individet. Valg fra en liste gjøres best ved å nummerere enhetene og bruke en tabell med tilfeldige tall, selv om det ofte brukes en kvasi-tilfeldig metode, når hvert n-te element er hentet fra en enkel liste.

Hvis utvalgsrammen inkluderer en liste over utvalgsenheter, innebærer utvalgsstrukturen å gruppere dem etter noen viktige egenskaper, for eksempel fordelingen av individer etter yrke, kvalifikasjoner, kjønn eller alder. Hvis det i den generelle befolkningen for eksempel er 30 % unge, 50 % middelaldrende og 20 % eldre, så må de samme prosentvise andelene av de tre aldre observeres i utvalgspopulasjonen. Alder kan suppleres med klasser, kjønn, nasjonalitet osv. For hver fastsettes prosentandeler i den generelle og utvalgspopulasjonen. Slik, prøvetakingsramme – prosentandeler av egenskapene til objektet, på grunnlag av hvilke utvalgspopulasjonen er kompilert.

Mens utvalgstype forteller oss hvordan personer er inkludert i utvalget, forteller utvalgsstørrelsen oss hvor mange personer som er inkludert.

Prøvestørrelse – antall enheter i utvalgspopulasjonen. Siden utvalgspopulasjonen er en del av den generelle populasjonen valgt ved hjelp av spesielle metoder, er volumet alltid mindre enn volumet til den generelle populasjonen. Derfor er det så viktig at delen ikke forvrenger ideen om helheten, det vil si at den representerer den.

Påliteligheten til dataene påvirkes ikke av de kvantitative egenskapene til prøvepopulasjonen (dens volum), men av de kvalitative egenskapene til den generelle befolkningen - graden av dens homogenitet. Avviket mellom den generelle populasjonen og utvalgspopulasjonen kalles representativitetsfeil , tillatt avvik – 5 %.

Her er noen måter å unngå feilen på:

hver enhet i populasjonen skal ha like stor sannsynlighet for å bli inkludert i utvalget;

det er tilrådelig å velge fra homogene populasjoner;

du trenger å kjenne egenskapene til befolkningen;

Ved sammenstilling av en utvalgspopulasjon må det tas hensyn til tilfeldige og systematiske feil.

Hvis utvalgspopulasjonen (utvalget) er trukket opp riktig, får sosiologen pålitelige resultater som karakteriserer hele populasjonen.

Hva er de viktigste prøvetakingsmetoder?

Mekanisk prøvetakingsmetode når fra generell liste av befolkningen generelt velges det nødvendige antallet respondenter med jevne mellomrom (for eksempel hver 10.).

Seriell prøvetakingsmetode. I dette tilfellet er den generelle befolkningen delt inn i homogene deler og analyseenheter velges proporsjonalt fra hver (for eksempel 20% av menn og kvinner i en bedrift).

Metode for klyngeprøvetaking. Utvalgsenhetene er ikke individuelle respondenter, men grupper med påfølgende kontinuerlig forskning i dem. Denne prøven vil være representativ hvis sammensetningen av gruppene er lik (for eksempel én gruppe studenter fra hver strøm av en universitetsavdeling).

Hovedmatrisemetode– undersøkelse av 60–70 % av befolkningen generelt.

Metode for kvoteprøvetaking. De fleste kompleks metode, som krever bestemmelse av minst fire egenskaper som respondentene velges ut fra. Brukes vanligvis med en stor befolkning.

Befolkning (på engelsk - befolkning) - et sett med alle objekter (enheter) som en forsker har til hensikt å trekke konklusjoner om når han studerer et spesifikt problem.

Populasjonen består av alle objekter som er gjenstand for studier. Befolkningssammensetningen avhenger av studiens mål. Noen ganger er den generelle befolkningen hele befolkningen i en bestemt region (for eksempel når man studerer holdningen til potensielle velgere til en kandidat), er det oftest spesifisert flere kriterier som bestemmer formålet med studien. For eksempel menn i alderen 30-50 år som bruker et visst merke av barberhøvel minst en gang i uken og har en inntekt på minst $100 per familiemedlem.

Prøveeller utvalgspopulasjon- et sett med tilfeller (emner, objekter, hendelser, prøver), ved hjelp av en bestemt prosedyre, valgt fra den generelle befolkningen for å delta i studien.

Prøveegenskaper:

· Kvalitative egenskaper ved utvalget - hvem velger vi akkurat og hvilke prøvetakingsmetoder vi bruker til dette.

· Kvantitative egenskaper ved utvalget - hvor mange saker vi velger ut, med andre ord, utvalgsstørrelse.

Nødvendigheten av prøvetaking

· Studieobjektet er svært omfattende. For eksempel er forbrukere av et globalt selskaps produkter representert av et stort antall geografisk spredte markeder.

· Det er behov for å samle inn primærinformasjon.

Prøvestørrelse

Prøvestørrelse- antall tilfeller inkludert i utvalgspopulasjonen. Av statistiske grunner anbefales det at antall tilfeller er minst 30 til 35.

Avhengige og uavhengige utvalg

Når du sammenligner to (eller flere) prøver, er en viktig parameter deres avhengighet. Hvis et homomorft par kan etableres (det vil si når ett tilfelle fra prøve X tilsvarer ett og bare ett tilfelle fra prøve Y og omvendt) for hvert tilfelle i to prøver (og dette forholdet er viktig for egenskapen som måles i prøvene), kalles slike prøver avhengig. Eksempler på avhengige prøver:

· tvillingpar,

· to målinger av en hvilken som helst egenskap før og etter eksperimentell eksponering,

· ektemenn og koner

· osv.

Hvis det ikke er et slikt forhold mellom prøvene, vurderes disse prøvene selvstendig, For eksempel:

· menn og kvinner,

· psykologer og matematikere.

Følgelig har avhengige utvalg alltid samme størrelse, mens størrelsen på uavhengige utvalg kan variere.

Sammenligning av prøver er gjort ved hjelp av ulike statistiske kriterier:

· Elevens t-test

· Wilcoxon test

· Mann-Whitney U-test

· Tegn kriterium

· osv.

Representativitet

Utvalget kan anses som representativt eller ikke-representativt.

Eksempel på et ikke-representativt utvalg

I USA, en av de mest kjente historiske eksempler Et ikke-representativt utvalg anses å forekomme under presidentvalget i 1936. The Literary Digest, som hadde forutsett hendelsene ved flere tidligere valg, tok feil i sine spådommer ved å sende ut ti millioner prøvestemmesedler til sine abonnenter, så vel som til personer valgt fra telefonbøkene i hele landet og personer fra bilregistrering lister. I 25 % av returnerte stemmesedler (nesten 2,5 millioner) ble stemmene fordelt som følger:

· 57 % foretrakk den republikanske kandidaten Alf Landon

· 40 % valgte daværende demokratiske president Franklin Roosevelt

I selve valget vant Roosevelt som kjent og fikk mer enn 60 % av stemmene. The Literary Digests feil var denne: de ønsket å øke representativiteten til utvalget - siden de visste at de fleste av abonnentene deres betraktet seg som republikanere - utvidet de utvalget til å omfatte personer valgt fra telefonbøker og registreringslister. De tok imidlertid ikke hensyn til sin tids realiteter og rekrutterte faktisk enda flere republikanere: under den store depresjonen var det hovedsakelig representanter for middel- og overklassen som hadde råd til å eie telefoner og biler (det vil si de fleste republikanere , ikke demokrater).

Typer plan for å konstruere grupper fra prøver

Det er flere hovedtyper av gruppebyggeplaner:

1. En studie med forsøks- og kontrollgrupper, som er plassert under ulike forhold.

2. Studer med eksperimentelle og kontrollgrupper ved å bruke en parvis seleksjonsstrategi

3. En studie som bruker bare én gruppe - en eksperimentell gruppe.

4. En studie som bruker en blandet (faktoriell) design - alle grupper er plassert under forskjellige forhold.

Prøvetakingstyper

Prøver er delt inn i to typer:

· sannsynlighet

· ikke-sannsynlighet

Sannsynlighetsprøver

1. Enkelt sannsynlighetsutvalg:

oEnkel resampling. Bruken av et slikt utvalg er basert på antakelsen om at hver respondent er like sannsynlig å bli inkludert i utvalget. Basert på listen over befolkningen generelt, er det satt sammen kort med respondentnummer. De legges i en kortstokk, stokkes og et kort tas ut tilfeldig, tallet skrives ned og returneres deretter. Deretter gjentas prosedyren så mange ganger som prøvestørrelsen vi trenger. Ulempe: repetisjon av utvalgsenheter.

Prosedyren for å konstruere en enkel tilfeldig prøve inkluderer følgende trinn:

1. må mottas full liste medlemmer av befolkningen og nummer denne listen. En slik liste, husker, kalles en samplingsramme;

2. bestemme forventet utvalgsstørrelse, det vil si forventet antall respondenter;

3. trekke ut så mange tall fra tilfeldig talltabellen som vi trenger prøveenheter. Dersom det skulle være 100 personer i utvalget, tas 100 tilfeldige tall fra tabellen. Disse tilfeldige tallene kan genereres av et dataprogram.

4. velg fra basislisten de observasjonene hvis tall tilsvarer de skrevne tilfeldige tallene

· Enkel tilfeldig prøvetaking har åpenbare fordeler. Denne metoden er ekstremt enkel å forstå. Resultatene av studien kan generaliseres til befolkningen som studeres. De fleste tilnærminger til statistisk slutning innebærer å samle informasjon ved hjelp av et enkelt tilfeldig utvalg. Imidlertid har den enkle tilfeldige prøvetakingsmetoden minst fire signifikante begrensninger:

1. Det er ofte vanskelig å lage en prøvetakingsramme som gjør det enkelt tilfeldig utvalg.

2. resultatet av å bruke et enkelt tilfeldig utvalg kan være en stor populasjon, eller en populasjon fordelt på en stor geografisk område, noe som øker tiden og kostnadene for datainnsamling betydelig.

3. Resultatene av enkel tilfeldig prøvetaking er ofte preget av lav presisjon og større standardfeil enn resultatene av andre sannsynlighetsmetoder.

4. Som et resultat av bruken av SRS, et lite representativt utvalg. Selv om prøver oppnådd ved enkel tilfeldig prøvetaking i gjennomsnitt representerer populasjonen tilstrekkelig, er noen av dem ekstremt feilrepresentative for populasjonen som studeres. Dette er spesielt sannsynlig når prøvestørrelsen er liten.

· Enkel ikke-repeterende prøvetaking. Prosedyren for å konstruere en prøve er den samme, bare kortene med respondentnummer blir ikke returnert tilbake til kortstokken.

1. Systematisk sannsynlighetsutvalg. Det er en forenklet versjon av enkel sannsynlighetsprøvetaking. Basert på listen over den generelle befolkningen velges respondentene med et visst intervall (K). Verdien av K bestemmes tilfeldig. Det mest pålitelige resultatet oppnås med en homogen populasjon, ellers kan trinnstørrelsen og enkelte interne sykliske mønstre i prøven falle sammen (prøveblanding). Ulemper: det samme som i et enkelt sannsynlighetsutvalg.

2. Seriell (klynge) prøvetaking. Prøvetakingsenhetene er statistiske serier(familie, skole, lag osv.). De valgte elementene er gjenstand for en fullstendig eksamen. Utvalget av statistiske enheter kan organiseres som tilfeldig eller systematisk utvalg. Ulempe: Mulighet for større homogenitet enn i befolkningen generelt.

3. Regional prøvetaking. Ved en heterogen populasjon anbefales det før bruk av sannsynlighetsprøvetaking med noen seleksjonsteknikk å dele populasjonen inn i homogene deler, et slikt utvalg kalles distriktsutvalg. Sonegrupper kan omfatte både naturformasjoner (for eksempel bydeler) og alle funksjoner som ligger til grunn for studien. Karakteristikken som delingen utføres på grunnlag av kalles karakteristikken for stratifisering og sonering.

4. Eksempel på "bekvemmelighet". Prosedyren for "bekvemmelig" prøvetaking består i å etablere kontakter med "praktiske" prøvetakingsenheter - en gruppe studenter, et idrettslag, venner og naboer. Hvis du trenger å innhente informasjon om folks reaksjoner på nytt konsept, en slik prøve er ganske berettiget. Bekvemmelighetsprøver brukes ofte til å forhåndsteste spørreskjemaer.

Ikke-sannsynlighetsprøver

Utvelgelse i et slikt utvalg utføres ikke i henhold til prinsippene om tilfeldighet, men i henhold til subjektive kriterier - tilgjengelighet, typiskhet, lik representasjon, etc.

1. Kvoteutvalg - utvalget er konstruert som en modell som gjengir strukturen til den generelle befolkningen i form av kvoter (proporsjoner) av egenskapene som studeres. Antall utvalgselementer med ulike kombinasjoner av studerte egenskaper bestemmes slik at det tilsvarer deres andel (andel) i befolkningen generelt. Så hvis for eksempel vår generelle befolkning består av 5000 mennesker, hvorav 2000 kvinner og 3000 menn, så vil vi i kvoteutvalget ha 20 kvinner og 30 menn, eller 200 kvinner og 300 menn. Kvoteutvalg er oftest basert på demografiske kriterier: kjønn, alder, region, inntekt, utdanning og andre. Ulemper: vanligvis er slike prøver ikke representative, fordi det er umulig å ta hensyn til flere sosiale parametere samtidig. Fordeler: lett tilgjengelig materiale.

2. Snøballmetoden. Prøven er konstruert som følger. Hver respondent, som starter med den første, blir bedt om kontaktinformasjon til venner, kolleger, bekjente som passer til utvelgelsesbetingelsene og kan delta i studien. Med unntak av det første trinnet dannes altså utvalget med deltakelse av forskningsobjektene selv. Metoden brukes ofte når det er nødvendig å finne og intervjue vanskelig tilgjengelige grupper av respondenter (for eksempel respondenter med høy inntekt, respondenter som tilhører samme yrkesgruppe, respondenter med lignende hobbyer/interesser osv.)

3. Spontan prøvetaking – prøvetaking av den såkalte «første personen du kommer over». Ofte brukt i TV- og radioavstemninger. Størrelsen og sammensetningen av spontane prøver er ikke kjent på forhånd, og bestemmes kun av én parameter – respondentenes aktivitet. Ulemper: det er umulig å fastslå hvilken populasjon respondentene representerer, og som et resultat er det umulig å fastslå representativitet.

4. Ruteundersøkelse – ofte brukt når studieenheten er familien. På kartet oppgjør, hvor undersøkelsen skal gjennomføres, er alle gater nummerert. Ved hjelp av en tabell (generator) av tilfeldige tall velges store tall. Hvert stort tall anses å bestå av 3 komponenter: gatenummer (2-3 første tall), husnummer, leilighetsnummer. For eksempel er nummeret 14832: 14 er gatenummeret på kartet, 8 er husnummeret, 32 er leilighetsnummeret.

5. Regional prøvetaking med utvalg av typiske objekter. Dersom det etter soneinndeling velges et typisk objekt fra hver gruppe, dvs. et objekt som er nær gjennomsnittet når det gjelder de fleste egenskapene som er studert i studien, et slikt utvalg kalles regionalisert med utvalg av typiske objekter.

Gruppebyggingsstrategier

Valg av grupper for deres deltagelse i psykologisk eksperiment gjennomføres gjennom ulike strategier som skal til for å sikre at intern og ekstern validitet opprettholdes i størst mulig grad.

· Randomisering (tilfeldig utvalg)

· Parvis valg

· Stratometrisk utvalg

· Omtrentlig modellering

· Tiltrekker ekte grupper

Randomisering, eller tilfeldig utvalg, brukes til å lage enkle stikkprøver. Bruken av et slikt utvalg er basert på antakelsen om at det er like sannsynlig at hvert medlem av populasjonen blir inkludert i utvalget. For å lage en tilfeldig prøve på 100 universitetsstudenter, kan du for eksempel legge papirbiter med navnene på alle universitetsstudenter i en lue, og deretter ta 100 stykker papir ut av det - dette vil være et tilfeldig utvalg (Goodwin J ., s. 147).

Parvis valg- en strategi for å konstruere prøvetakingsgrupper, der grupper av forsøkspersoner er satt sammen av forsøkspersoner som er likeverdige når det gjelder sekundære parametere som er signifikante for eksperimentet. Denne strategien er effektiv for eksperimenter som bruker eksperimentelle grupper og kontrollgrupper, med det beste alternativet å involvere tvillingpar (mono- og dizygotiske), da den lar deg lage...

Stratometrisk utvalg - randomisering med tildeling av strata (eller klynger). På denne metoden Ved å danne et utvalg deles den generelle befolkningen inn i grupper (strata) med visse egenskaper (kjønn, alder, politiske preferanser, utdanning, inntektsnivå osv.), og emner med tilsvarende egenskaper velges.

Omtrentlig modellering - trekke begrensede utvalg og generalisere konklusjoner om dette utvalget til den bredere befolkningen. For eksempel, med deltakelse av 2. års universitetsstudenter i studien, gjelder dataene i denne studien for "personer i alderen 17 til 21 år". Tillateligheten av slike generaliseringer er ekstremt begrenset.

Tilnærmet modellering er dannelsen av en modell som, for en klart definert klasse av systemer (prosesser), beskriver dens oppførsel (eller ønskede fenomener) med akseptabel nøyaktighet.

Forelesning 6. Elementer i matematisk statistikk

Spørsmål for å kontrollere kunnskap og oppsummere forelesningen

1. Definer en tilfeldig variabel.

2.Skriv formler for matematisk forventning og spredning av diskrete og kontinuerlige tilfeldige variabler.

3. Definer lokalt integral grensesetning Laplace

4. Skriv formler som gir binomial fordeling, hypergeometrisk fordeling, Poissonfordeling, uniform fordeling og normalfordeling.

Mål: Å studere de grunnleggende begrepene i matematisk statistikk

1. Populasjon og utvalg

2. Statistisk fordeling av utvalget. Polygon. Histogram .

3. Estimater av parametere for den generelle befolkningen basert på utvalget

4. Generelle og utvalgsgjennomsnitt. Metoder for deres beregning.

5. Generelle og utvalgsavvik.

6. Spørsmål for å kontrollere kunnskap og oppsummere forelesningen

Vi begynner å studere elementene i matematisk statistikk, som utvikler vitenskapelig baserte metoder for å samle inn statistiske data og behandle dem.

1. Generell populasjon og utvalg. La det være nødvendig å studere et sett med homogene objekter (dette settet kalles statistisk aggregat) angående noen kvalitative eller kvantitativ karakteristikk, som karakteriserer disse objektene. For eksempel, hvis det er et parti med deler, da kvalitativt tegn Standardiseringen av delen kan tjene som et kvantitativt mål, og den kontrollerte størrelsen på delen kan tjene som et kvantitativt mål.

Det er best å gjennomføre en fullstendig undersøkelse, dvs. undersøk hvert objekt. Men i de fleste tilfeller ulike årsaker det er umulig å gjøre dette. Et stort antall gjenstander og deres utilgjengelighet kan hindre en fullstendig undersøkelse. Hvis vi for eksempel trenger å vite kraterets gjennomsnittlige dybde når et skall fra en eksperimentell batch eksploderer, så vil vi ved å utføre en fullstendig undersøkelse ødelegge hele batchen.

Hvis en fullstendig undersøkelse ikke er mulig, velges en del av objektene fra hele populasjonen for undersøkelse.

Den statistiske populasjonen som en del av objektene er valgt fra kalles den generelle befolkningen. Et sett med objekter tilfeldig valgt fra en populasjon kalles prøvetaking.

Antall objekter i populasjonen og utvalget kalles hhv volum befolkningen generelt og volum prøver.

Eksempel 10.1. Fruktene til ett tre (200 stykker) undersøkes for tilstedeværelsen av en smak som er spesifikk for denne sorten. For dette formålet velges 10 stykker. Her er 200 størrelsen på populasjonen, og 10 er størrelsen på utvalget.

Hvis et utvalg er valgt fra ett objekt, som undersøkes og returneres til populasjonen, kalles utvalget gjentatt. Hvis prøveobjektene ikke lenger returneres til populasjonen, kalles utvalget repeterbar.

I praksis brukes ikke-repetitive prøvetaking oftere. Hvis prøvestørrelsen er en liten brøkdel av populasjonsstørrelsen, er forskjellen mellom gjentatte og ikke-replikerte prøver ubetydelig.

Egenskapene til objektene i utvalget må korrekt gjenspeile egenskapene til objektene i populasjonen, eller, som de sier, utvalget må være representant(representant). Et utvalg anses å være representativt dersom alle objekter i populasjonen har samme sannsynlighet for å bli inkludert i utvalget, det vil si at utvalget er gjort tilfeldig. For eksempel, for å estimere den fremtidige høstingen, kan du ta en prøve fra den generelle populasjonen av frukt som ennå ikke er modnet og undersøke egenskapene deres (vekt, kvalitet, etc.). Hvis hele prøven tas fra ett tre, vil den ikke være representativ. Representativt utvalg bør bestå av tilfeldig utvalgte frukter fra tilfeldig utvalgte trær.

2. Statistisk fordeling av utvalget. Polygon. Histogram. La et utvalg trekkes fra befolkningen generelt, og X 1 observert n 1, ganger, X 2 - n 2 en gang, ..., x k - n k ganger og n 1 +n 2 +…+ n k= p - prøvestørrelse. Observerte verdier x 1 , x 2 , …, x k ringte alternativer, og variantsekvensen, skrevet i stigende rekkefølge, er variasjonsserie. Antall observasjoner n 1 , n 2 , …, n k ringte frekvenser, og deres forhold til prøvestørrelsen , …, - relative frekvenser. Merk at summen av de relative frekvensene er lik enhet: .

Statistisk utvalgsfordeling kall opp en liste over alternativer og deres tilsvarende frekvenser eller relative frekvenser. Den statistiske fordelingen kan også angis som en sekvens av intervaller og deres tilsvarende frekvenser (kontinuerlig distribusjon). Summen av frekvensene til variantene som faller innenfor dette intervallet tas som frekvensen som tilsvarer intervallet. Til grafisk bilde statistisk fordeling bruk polygoner Og histogrammer.

Å konstruere en polygon på en akse Åh alternativ for utsett verdier X i, på aksen Å - frekvensverdier n i (relative frekvenser).

Eksempel 10.2. I fig. 10.1 viser polygonet til følgende fordeling

Polygonen brukes vanligvis i tilfelle av et lite antall alternativer. Ved et stort antall er muligheten også i saken kontinuerlig distribusjon kjennetegn, er histogrammer ofte konstruert. For å gjøre dette, er intervallet der alle observerte verdier av attributtet er delt inn i flere delintervaller av lengde h og finn for hvert delintervall n i, - summen av frekvenser av varianten inkludert i jeg-intervall. Deretter, på disse intervallene, som på baser, bygges rektangler med høyder (eller, hvor p - prøvestørrelse).

Kvadrat jeg delvis rektangel er lik , (eller ).

Følgelig er arealet av histogrammet lik summen av alle frekvenser (eller relative frekvenser), dvs. prøvestørrelse (eller enhet).

Eksempel 10.3. I fig. Figur 10.2 viser et histogram av en kontinuerlig volumfordeling n= 100 gitt i følgende tabell.