Biografier Kjennetegn Analyse

Standardavviket til gjennomsnittet. Beregn størrelsen på modusen

Standardavvik

Den mest perfekte egenskapen til variasjon er standardavviket, ĸᴏᴛᴏᴩᴏᴇ kalles standarden (eller standardavviket). Standardavvik() er lik kvadratroten av middelkvadraten av avvikene til individuelle funksjonsverdier fra det aritmetiske gjennomsnittet:

Standardavviket er enkelt:

Det vektede standardavviket brukes for grupperte data:

Mellom middelkvadrat og gjennomsnittlig lineære avvik under betingelsene for en normalfordeling finner følgende sammenheng sted: ~ 1,25.

Standardavviket, som er det viktigste absolutte variasjonsmålet, brukes til å bestemme verdiene til ordinatene til normalfordelingskurven, i beregninger relatert til organisering av prøveobservasjon og for å etablere nøyaktigheten av prøvekarakteristikker, samt i å vurdere grensene for variasjonen av en egenskap i en homogen populasjon.

18. Dispersjon, dens typer, standardavvik.

Varians av en tilfeldig variabel- et mål på spredningen av en gitt tilfeldig variabel, dvs. dens avvik fra den matematiske forventningen. I statistikk brukes ofte betegnelsen eller. Kvadratroten av variansen kalles standardavvik, standardavvik eller standard oppslag.

Total varians (σ2) måler variasjonen av en egenskap i hele befolkningen under påvirkning av alle faktorene som forårsaket denne variasjonen. Samtidig er det, takket være grupperingsmetoden, mulig å isolere og måle variasjonen på grunn av grupperingstrekket, og variasjonen som oppstår under påvirkning av uoversiktlige faktorer.

Intergruppevarians (σ 2 m.gr) karakteriserer systematisk variasjon, dvs. forskjeller i verdien av den studerte egenskapen, som oppstår under påvirkning av egenskapen - faktoren som ligger til grunn for grupperingen.

standardavvik(synonymer: standardavvik, standardavvik, standardavvik; relaterte termer: standardavvik, standard oppslag) - i sannsynlighetsteori og statistikk, den vanligste indikatoren på spredningen av verdiene til en tilfeldig variabel i forhold til dens matematiske forventning. Med begrensede arrays av utvalg av verdier, i stedet for den matematiske forventningen, brukes det aritmetiske gjennomsnittet av settet med samples.

Standardavviket måles i enheter av selve den tilfeldige variabelen og brukes til å beregne standardfeilen til det aritmetiske gjennomsnittet, ved å konstruere konfidensintervaller, ved statistisk testing av hypoteser og ved måling av den lineære sammenhengen mellom tilfeldige variabler. Det er definert som kvadratroten av variansen til en tilfeldig variabel.

Standardavvik:

Standardavvik(estimering av standardavviket til en tilfeldig variabel x i forhold til dens matematiske forventning basert på et objektivt estimat av variansen):

hvor er spredningen; - Jeg-th prøveelement; - prøvestørrelse; - aritmetisk gjennomsnitt av prøven:

Det skal bemerkes at begge estimatene er partiske. I det generelle tilfellet er det umulig å konstruere et objektivt estimat. Samtidig er estimatet basert på det objektive variansestimatet konsistent.

19. Essens, omfang og prosedyre for å bestemme modus og median.

I tillegg til kraftlovgjennomsnitt i statistikk, for en relativ karakteristikk av størrelsen på en varierende attributt og den interne strukturen til distribusjonsserier, brukes strukturelle gjennomsnitt, som hovedsakelig er representert ved modus og median.

Mote– Dette er den vanligste varianten av serien. Mote brukes for eksempel når man skal bestemme størrelsen på klær, sko, som er mest etterspurt blant kjøpere. Modusen for en diskret serie er varianten med høyest frekvens. Når du beregner modusen for intervallvariasjonsserien, er det ekstremt viktig å først bestemme det modale intervallet (ved maksimal frekvens), og deretter verdien av den modale verdien av attributtet i henhold til formelen:

§ - moteverdi

§ - nedre grense for det modale intervallet

§ - verdien av intervallet

§ - modal intervallfrekvens

§ - frekvensen av intervallet før modalen

§ - frekvensen av intervallet etter modalen

Median - denne funksjonsverdien, ĸᴏᴛᴏᴩᴏᴇ ligger i bunnen av den rangerte serien og deler denne serien i to like i antall.

For å bestemme medianen i en diskret serie i nærvær av frekvenser, beregnes først halvsummen av frekvenser, og deretter bestemmes det hvilken verdi av varianten som faller på den. (Hvis den sorterte raden inneholder et oddetall funksjoner, beregnes mediantallet ved hjelp av formelen:

M e \u003d (n (antall funksjoner i aggregatet) + 1) / 2,

i tilfelle av et partall av funksjoner, vil medianen være lik gjennomsnittet av de to funksjonene plassert i midten av serien).

Ved beregning av medianen for intervallvariasjonsserier Bestem først medianintervallet som medianen befinner seg innenfor, og deretter verdien av medianen i henhold til formelen:

§ - ønsket median

§ - den nedre grensen for intervallet som inneholder medianen

§ - verdien av intervallet

§ - summen av frekvenser eller antall medlemmer av serien

§ - summen av de akkumulerte frekvensene til intervallene foran medianen

§ - frekvensen av medianintervallet

Eksempel. Finn modus og median.

Beslutning: I dette eksemplet er det modale intervallet innenfor aldersgruppen 25-30 år, siden dette intervallet står for den høyeste frekvensen (1054).

La oss beregne modusverdien:

Det betyr at elevens modale alder er 27 år.

La oss beregne medianen. Medianintervallet er i aldersgruppen 25-30 år, siden det innenfor dette intervallet finnes en variant som deler befolkningen i to like deler (Σf i /2 = 3462/2 = 1731). Deretter erstatter vi de nødvendige numeriske dataene i formelen og får verdien av medianen:

Det betyr at den ene halvparten av elevene er under 27,4 år, og den andre halvparten er over 27,4 år.

I tillegg til modus og median, brukes indikatorer som kvartiler, som deler den rangerte serien i 4 like deler, desiler - 10 deler og persentiler - i 100 deler.

20. Begrepet selektiv observasjon og dets omfang.

Selektiv observasjon gjelder ved bruk av kontinuerlig observasjon fysisk umulig på grunn av store mengder data eller ikke økonomisk gjennomførbart. Fysisk umulighet finner sted for eksempel når man studerer passasjerstrømmer, markedspriser, familiebudsjetter. Økonomisk uhensiktsmessighet oppstår når man vurderer kvaliteten på varer knyttet til deres ødeleggelse, for eksempel smaking, testing av murstein for styrke, etc.

De statistiske enhetene valgt for observasjon er prøvetakingsramme eller prøvetaking, og hele utvalget deres - generell befolkning(GS). Hvori antall enheter i utvalget utpeke n, og i alle HS - N. Holdning n/n kalt relativ størrelse eller prøveandel.

Kvaliteten på prøveresultatene avhenger av utvalgets representativitet, altså på hvor representativt det er i GS. For å sikre representativiteten til utvalget er det vesentlig at prinsippet om tilfeldig utvalg av enheter, som forutsetter at inkluderingen av en HS-enhet i utvalget ikke kan påvirkes av noen annen faktor enn tilfeldigheter.

Eksistere 4 måter for tilfeldig valgå prøve:

  1. Egentlig tilfeldig utvalg eller ''metode for lotto'', når serienumre er tilordnet statistiske verdier, lagt inn på bestemte objekter (for eksempel fat), som deretter blandes i en bestemt beholder (for eksempel i en pose) og velges tilfeldig. I praksis utføres denne metoden ved hjelp av en tilfeldig tallgenerator eller matematiske tabeller med tilfeldige tall.
  2. Mekanisk utvalg, i henhold til hvilket hver ( N/n)-te verdi av den generelle befolkningen. For eksempel, hvis den inneholder 100 000 verdier, og du vil velge 1000, vil hver 100 000 / 1000 = 100. verdi falle inn i prøven. Dessuten, hvis de ikke er rangert, blir den første valgt tilfeldig fra de første hundre, og tallene til de andre vil være hundre flere. For eksempel, hvis den første enheten var nummer 19, så skal den neste være nummer 119, deretter nummer 219, deretter nummer 319, osv. Hvis enhetene for den generelle befolkningen er rangert, velges nr. 50 først, deretter nr. 150, deretter nr. 250, og så videre.
  3. Valget av verdier fra en heterogen datamatrise utføres stratifisert(stratifisert) metode, når den generelle befolkningen tidligere er delt inn i homogene grupper, som tilfeldig eller mekanisk seleksjon brukes på.
  4. En spesiell prøvetakingsmetode er serie seleksjon, der ikke individuelle mengder er tilfeldig eller mekanisk valgt, men deres serier (sekvenser fra et eller annet nummer til noen på rad), innenfor hvilke kontinuerlig observasjon utføres.

Kvaliteten på prøveobservasjoner avhenger også av prøvetakingstype: gjentatt eller ikke-repetitive.omvalg de statistiske verdiene eller seriene deres som falt inn i utvalget blir returnert til den generelle befolkningen etter bruk, og har en sjanse til å komme inn i et nytt utvalg. Samtidig har alle verdier i den generelle befolkningen samme sannsynlighet for å bli inkludert i utvalget. Ikke-gjentakende valg betyr at de statistiske verdiene eller deres serier inkludert i utvalget ikke returneres til den generelle befolkningen etter bruk, og derfor øker sannsynligheten for å komme inn i neste prøve for de gjenværende verdiene til sistnevnte.

Ikke-repeterende prøvetaking gir mer nøyaktige resultater, og brukes derfor oftere. Men det er situasjoner hvor det ikke kan brukes (studie av passasjerstrømmer, forbrukernes etterspørsel osv.) og så foretas et omvalg.

21. Begrensende prøvetakingsfeil ved observasjon, gjennomsnittlig prøvetakingsfeil, rekkefølgen på deres beregning.

La oss vurdere i detalj metodene ovenfor for å danne en utvalgspopulasjon og representativitetsfeilene som oppstår i dette tilfellet. Faktisk-tilfeldig utvalget er basert på tilfeldig utvalg av enheter fra den generelle populasjonen uten noen innslag av konsistens. Teknisk sett utføres riktig tilfeldig utvalg ved å trekke lodd (for eksempel lotterier) eller ved en tabell med tilfeldige tall.

Egentlig tilfeldig seleksjon "i sin rene form" i praksisen med selektiv observasjon brukes sjelden, men det er den første blant andre typer seleksjon, den implementerer de grunnleggende prinsippene for selektiv observasjon. La oss vurdere noen spørsmål om teorien om prøvetakingsmetoden og feilformelen for et enkelt tilfeldig utvalg.

Prøvetakingsfeil- ϶ᴛᴏ forskjellen mellom verdien av parameteren i den generelle populasjonen, og dens verdi beregnet fra resultatene av prøveobservasjon. Det er viktig å merke seg at for den gjennomsnittlige kvantitative egenskapen bestemmes prøvetakingsfeilen av

Indikatoren kalles vanligvis marginal prøvetakingsfeil. Utvalgsgjennomsnittet er en tilfeldig variabel som kan få ulike verdier avhengig av hvilke enheter som er i utvalget. Derfor er prøvetakingsfeil også tilfeldige variabler og kan få ulike verdier. Av denne grunn bestemmes gjennomsnittet av mulige feil - gjennomsnittlig prøvetakingsfeil, som avhenger av:

prøvestørrelse: jo større tall, jo mindre er gjennomsnittsfeilen;

Graden av endring i den studerte egenskapen: jo mindre variasjonen av egenskapen er, og følgelig variansen, jo mindre er den gjennomsnittlige prøvetakingsfeilen.

tilfeldig omvalg gjennomsnittsfeilen beregnes. I praksis er den generelle variansen ikke nøyaktig kjent, men det er bevist i sannsynlighetsteori at . Siden verdien for tilstrekkelig stor n er nær 1, kan vi anta at . Deretter skal den gjennomsnittlige prøvetakingsfeilen beregnes: . Men i tilfeller med et lite utvalg (for n<30) коэффициент крайне важно учитывать, и среднюю ошибку малой выборки рассчитывать по формуле .

tilfeldig prøvetaking de gitte formlene korrigeres med verdien . Da er den gjennomsnittlige feilen for ikke-sampling: og . Fordi alltid er mindre enn , da er faktoren () alltid mindre enn 1. Dette betyr at gjennomsnittsfeilen ved ikke-repeterende seleksjon alltid er mindre enn ved gjentatt seleksjon. Mekanisk prøvetaking brukes når befolkningen er ordnet på en eller annen måte (for eksempel velgerlister i alfabetisk rekkefølge, telefonnumre, husnummer, leiligheter). Utvelgelsen av enheter utføres med et visst intervall, som er lik den gjensidige prosentandelen av prøven. Så, med et utvalg på 2 %, velges hver 50 enhet = 1 / 0,02, med 5 %, hver 1 / 0,05 = 20 enhet av den generelle befolkningen.

Opprinnelsen velges på forskjellige måter: tilfeldig, fra midten av intervallet, med en endring i opprinnelsen. Nøkkelen er å unngå systematiske feil. For eksempel, med en prøve på 5 %, hvis den 13. er valgt som den første enheten, så de neste 33, 53, 73 osv.

Når det gjelder nøyaktighet, er det mekaniske utvalget nært opp til riktig tilfeldig prøvetaking. Av denne grunn brukes formler for riktig tilfeldig utvalg for å bestemme gjennomsnittsfeilen ved mekanisk prøvetaking.

typisk utvalg den undersøkte befolkningen er foreløpig delt inn i homogene enkelttypegrupper. For eksempel, når man kartlegger foretak, er dette sektorer, undersektorer, når man studerer befolkningen, er dette områder, sosiale eller aldersgrupper. Deretter blir det gjort et uavhengig valg fra hver gruppe på en mekanisk eller tilfeldig måte.

Typisk prøvetaking gir mer nøyaktige resultater enn andre metoder. Typifiseringen av den generelle populasjonen sikrer representasjonen av hver typologisk gruppe i utvalget, noe som gjør det mulig å utelukke påvirkning av intergruppevarians på gjennomsnittlig utvalgsfeil. Derfor, når du finner feilen til et typisk utvalg i henhold til regelen for tillegg av varians (), er det ekstremt viktig å bare ta hensyn til gjennomsnittet av gruppevariansene. Deretter gjennomsnittlig prøvetakingsfeil: med gjentatt seleksjon , med ikke-repetitiv seleksjon , hvor er gjennomsnittet av variasjonene mellom gruppene i utvalget.

Seriell (eller nestet) utvalg brukes når populasjonen deles inn i serier eller grupper før oppstart av utvalgsundersøkelsen. Disse seriene er pakker med ferdige produkter, studentgrupper, team. Serier for undersøkelse velges mekanisk eller tilfeldig, og innenfor serien gjennomføres en fullstendig undersøkelse av enheter. Av denne grunn avhenger den gjennomsnittlige prøvetakingsfeilen bare av variansen mellom grupper (interserier), som beregnes med formelen: hvor r er antall valgte serier; er gjennomsnittet av den i-te serien. Den gjennomsnittlige serielle prøvetakingsfeilen beregnes: med omvalg , med ikke-repeterende utvalg , hvor R er det totale antallet serier. Kombinert seleksjon er en kombinasjon av de vurderte seleksjonsmetodene.

Den gjennomsnittlige prøvetakingsfeilen for enhver utvalgsmetode avhenger hovedsakelig av utvalgets absolutte størrelse og i mindre grad av utvalgets prosentandel. Anta at det gjøres 225 observasjoner i det første tilfellet av en befolkning på 4500 enheter og i det andre tilfellet av 225000 enheter. Variansene i begge tilfeller er lik 25. Så, i det første tilfellet, med et utvalg på 5 %, vil samplingsfeilen være: I det andre tilfellet, med et utvalg på 0,1 %, vil det være lik:

Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, med en 50-dobling i prøvetakingsprosenten, økte prøvetakingsfeilen litt siden prøvestørrelsen ikke endret seg. Anta at utvalgsstørrelsen økes til 625 observasjoner. I dette tilfellet er prøvetakingsfeilen: En økning i utvalget med 2,8 ganger med samme størrelse på den generelle befolkningen reduserer størrelsen på utvalgsfeilen med mer enn 1,6 ganger.

22. Metoder og måter å danne en utvalgspopulasjon på.

I statistikk brukes ulike metoder for å danne prøvesett, som bestemmes av målene for studien og avhenger av spesifikasjonene til studieobjektet.

Hovedbetingelsen for å gjennomføre en utvalgsundersøkelse er å forhindre forekomst av systematiske feil som oppstår ved brudd på prinsippet om like muligheter for hver enhet av den generelle befolkningen til å delta i utvalget. Forebygging av systematiske feil oppnås som et resultat av bruk av vitenskapelig baserte metoder for dannelse av en utvalgspopulasjon.

Det er følgende måter å velge enheter fra den generelle populasjonen på: 1) individuelt utvalg - individuelle enheter velges i utvalget; 2) gruppeutvelgelse - kvalitativt homogene grupper eller serier av enheter som studeres faller inn i utvalget; 3) kombinert utvalg er en kombinasjon av individuell og gruppeutvalg. Metoder for seleksjon bestemmes av reglene for dannelsen av prøvetakingspopulasjonen.

Prøven må være:

  • skikkelig tilfeldig består i at utvalget er dannet som et resultat av tilfeldig (utilsiktet) utvalg av enkeltenheter fra den generelle befolkningen. I dette tilfellet bestemmes vanligvis antall enheter valgt i prøvesettet basert på den aksepterte andelen av prøven. Utvalgsandelen er forholdet mellom antall enheter i utvalgspopulasjonen n og antall enheter i den generelle populasjonen N, ᴛ.ᴇ.
  • mekanisk består i at utvalget av enheter i utvalget gjøres fra den generelle populasjonen, delt inn i like intervaller (grupper). I dette tilfellet er størrelsen på intervallet i den generelle populasjonen lik den gjensidige av utvalgets andel. Så, med et utvalg på 2 %, velges hver 50. enhet (1:0,02), med en prøve på 5 %, hver 20. enhet (1:0,05), osv. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, i samsvar med den aksepterte andelen seleksjon, er den generelle befolkningen så å si mekanisk delt inn i like grupper. Kun én enhet velges fra hver gruppe i utvalget.
  • typisk - hvor den generelle befolkningen først deles inn i homogene typiske grupper. Videre, fra hver typisk gruppe, gjøres et individuelt utvalg av enheter i utvalget av en tilfeldig eller mekanisk prøve. Et viktig trekk ved en typisk prøve er at den gir mer nøyaktige resultater sammenlignet med andre metoder for å velge enheter i en prøve;
  • serie- der den generelle befolkningen er delt inn i grupper av samme størrelse - serier. Serier velges i prøvesettet. Innenfor serien gjennomføres en kontinuerlig observasjon av enhetene som falt inn i serien;
  • kombinert- prøven bør være to-trinns. I dette tilfellet blir den generelle befolkningen først delt inn i grupper. Deretter velges grupper, og innenfor sistnevnte velges individuelle enheter.

I statistikk skilles følgende metoder for å velge enheter i et utvalg:

  • enkelt trinn prøve - hver utvalgt enhet blir umiddelbart utsatt for studier på et gitt grunnlag (faktisk tilfeldige og serielle prøver);
  • flertrinn utvalg - utvalg gjøres fra den generelle populasjonen av enkeltgrupper, og individuelle enheter velges fra gruppene (et typisk utvalg med en mekanisk metode for å velge enheter i utvalgspopulasjonen).

I tillegg skille:

  • gjenvalg- i henhold til skjemaet for den returnerte ballen. Samtidig returneres hver enhet eller serie som har falt i utvalget til den generelle populasjonen og har derfor en sjanse til å bli inkludert i utvalget igjen;
  • ikke-repeterende utvalg- i henhold til ordningen med den ikke returnerte ballen. Den har mer nøyaktige resultater for samme prøvestørrelse.

23. Bestemme den kritiske prøvestørrelsen (bruk av studentens tabell).

Et av de vitenskapelige prinsippene i prøvetakingsteori er å sikre at et tilstrekkelig antall enheter velges. Teoretisk er den ekstreme viktigheten av å observere dette prinsippet presentert i bevisene for grensesetningene for sannsynlighetsteori, som lar en fastslå hvor mange enheter som bør velges fra den generelle befolkningen slik at det er tilstrekkelig og sikrer representativiteten til utvalget.

En reduksjon i standardfeilen til utvalget, og derfor en økning i nøyaktigheten av estimatet, er alltid forbundet med en økning i prøvestørrelsen, i forbindelse med dette, allerede på stadiet av organisering av en prøveobservasjon, er det nødvendig å bestemme hvilken prøvestørrelse som skal være for å sikre den nødvendige nøyaktigheten av observasjonsresultatene. Beregningen av den ekstremt viktige utvalgsstørrelsen er bygget opp ved hjelp av formler utledet fra formlene for de marginale prøvetakingsfeilene (A), tilsvarende en eller annen type og metode for utvelgelse. Så, for en tilfeldig gjentatt prøvestørrelse (n), har vi:

Essensen av denne formelen er at med tilfeldig omvalg av et ekstremt viktig tall, er prøvestørrelsen direkte proporsjonal med kvadratet av konfidensen (t2) og varians av variasjonstrekket (?2) og er omvendt proporsjonal med kvadratet av den marginale prøvetakingsfeilen (?2). Spesielt når den marginale feilen dobles, må den nødvendige utvalgsstørrelsen reduseres med en faktor på fire. Av de tre parameterne er to (t og?) satt av forskeren. Samtidig har forskeren, basert på målet

og målene for prøveundersøkelsen bør avgjøre spørsmålet: i hvilken kvantitativ kombinasjon er det bedre å inkludere disse parameterne for å gi det beste alternativet? I det ene tilfellet kan han være mer fornøyd med påliteligheten til de oppnådde resultatene (t) enn med målingen av nøyaktighet (?), i det andre, omvendt. Det er vanskeligere å løse problemet med verdien av den marginale prøvetakingsfeilen, siden forskeren ikke har denne indikatoren ved utformingen av en prøveobservasjon, i forbindelse med dette er det i praksis vanlig å sette den marginale prøvetakingsfeilen , som regel innenfor 10 % av det forventede gjennomsnittlige nivået for egenskapen. Å etablere et antatt gjennomsnittsnivå kan tilnærmes på ulike måter: ved å bruke data fra lignende tidligere undersøkelser, eller ved å bruke data fra utvalgsrammen og ta et lite pilotutvalg.

Det vanskeligste å fastslå når man designer en prøveobservasjon er den tredje parameteren i formel (5.2) - variansen til utvalgspopulasjonen. I dette tilfellet er det viktig å bruke all informasjon som er tilgjengelig for etterforskeren fra tidligere lignende og pilotundersøkelser.

Spørsmålet om å bestemme den ekstremt viktige utvalgsstørrelsen blir mer komplisert dersom utvalgsundersøkelsen involverer studier av flere trekk ved utvalgsenheter. I dette tilfellet er gjennomsnittsnivåene for hver av egenskapene og deres variasjon, som regel, forskjellige, og i denne forbindelse er det mulig å bestemme hvilken spredning av hvilke av egenskapene som skal foretrekkes bare under hensyntagen til formålet og målene for undersøkelsen.

Ved utforming av en prøveobservasjon antas en forhåndsbestemt verdi av den tillatte prøvetakingsfeilen i samsvar med målene for en bestemt studie og sannsynligheten for konklusjoner basert på resultatene av observasjonen.

Generelt lar formelen for den marginale feilen til prøvemiddelverdien deg bestemme:

‣‣‣ omfanget av mulige avvik av indikatorer for den generelle populasjonen fra de i utvalgspopulasjonen;

‣‣‣ den nødvendige prøvestørrelsen, som gir den nødvendige nøyaktigheten, der grensene for en mulig feil ikke vil overstige en viss spesifisert verdi;

‣‣‣ sannsynligheten for at feilen i utvalget vil ha en gitt grense.

Elevens fordeling i sannsynlighetsteori er det en én-parameter familie av absolutt kontinuerlige distribusjoner.

24. Serier av dynamikk (intervall, moment), avslutning av serier av dynamikk.

Serie av dynamikk- dette er verdiene til statistiske indikatorer som presenteres i en viss kronologisk sekvens.

Hver tidsserie inneholder to komponenter:

1) tidsperiodeindikatorer(år, kvartaler, måneder, dager eller datoer);

2) indikatorer som karakteriserer objektet som studeres for tidsperioder eller på tilsvarende datoer, som kalles nivåer av et tall.

Nivåene i serien uttrykkes både som absolutte og gjennomsnittlige eller relative verdier. Gitt avhengigheten av indikatorenes natur, bygges dynamiske serier av absolutte, relative og gjennomsnittlige verdier. Dynamiske serier av relative og gjennomsnittlige verdier bygges på grunnlag av avledede serier av absolutte verdier. Det er intervall- og momentserier av dynamikk.

Dynamisk intervallserie inneholder verdiene til indikatorer for visse tidsperioder. I intervallseriene kan nivåene summeres ved å få volumet av fenomenet for en lengre periode, eller såkalte akkumulerte totaler.

Dynamisk øyeblikksserie reflekterer verdiene til indikatorer på et bestemt tidspunkt (tidspunkt). I øyeblikksserier kan forskeren bare være interessert i forskjellen mellom fenomener, noe som gjenspeiler endringen i nivået til serien mellom bestemte datoer, siden summen av nivåene her ikke har noe reelt innhold. Akkumulerte totaler er ikke beregnet her.

Den viktigste betingelsen for riktig konstruksjon av tidsserier er sammenlignbarhet på serienivå knyttet til ulike perioder. Nivåer bør presenteres i homogene mengder, det bør være samme fullstendighet av dekning av ulike deler av fenomenet.

For å unngå forvrengning av den reelle dynamikken, utføres foreløpige beregninger i den statistiske studien (lukkingen av tidsserien), som går foran den statistiske analysen av tidsserien. Under lukke radene med dynamikk det er vanlig å forstå kombinasjonen i en rad med to eller flere rader, hvis nivåer er beregnet i henhold til annen metodikk eller ikke samsvarer med territorielle grenser, etc. Lukkingen av dynamikkserien kan også innebære reduksjon av de absolutte nivåene til dynamikkseriene til et felles grunnlag, noe som eliminerer inkompatibiliteten til nivåene til dynamikkseriene.

25. Konseptet med sammenlignbarhet av serier av dynamikk, koeffisienter, vekst og vekstrater.

Serie av dynamikk- dette er serier av statistiske indikatorer som karakteriserer utviklingen av naturlige og sosiale fenomener i tid. Statistiske samlinger utgitt av Statens statistikkkomité i Russland inneholder et stort antall tidsserier i tabellform. Serier av dynamikk tillater avslørende mønstre for utvikling av de studerte fenomenene.

Tidsserier inneholder to typer indikatorer. Tidsindikatorer(år, kvartaler, måneder osv.) eller tidspunkter (i begynnelsen av året, i begynnelsen av hver måned osv.). Radnivåindikatorer. Indikatorer for nivåene av tidsserier er uttrykt i absolutte verdier (produksjon i tonn eller rubler), relative verdier (andel av bybefolkningen i%) og gjennomsnittsverdier (gjennomsnittlig lønn til industriarbeidere etter år, etc. .). I tabellform inneholder tidsserien to kolonner eller to rader.

Riktig konstruksjon av tidsserier innebærer oppfyllelse av en rekke krav:

  1. alle indikatorer på en rekke dynamikker må være vitenskapelig underbygget, pålitelige;
  2. indikatorer for en serie av dynamikk bør være sammenlignbare i tid, ᴛ.ᴇ. må beregnes for samme tidsperioder eller på samme datoer;
  3. indikatorer for en rekke dynamikker bør være sammenlignbare på tvers av territoriet;
  4. indikatorer for en serie av dynamikk bør være sammenlignbare i innhold, ᴛ.ᴇ. beregnet i henhold til en enkelt metodikk, på samme måte;
  5. indikatorer for en rekke dynamikker bør være sammenlignbare på tvers av utvalget av gårder som vurderes. Alle indikatorer for en serie av dynamikk skal gis i samme måleenheter.

Statistiske indikatorer kan karakterisere enten resultatene av prosessen som studeres over en tidsperiode, eller tilstanden til fenomenet som studeres på et bestemt tidspunkt, ᴛ.ᴇ. indikatorer er intervall (periodisk) og momentane. Følgelig er seriene av dynamikk i utgangspunktet enten intervall eller moment. Momentserier med dynamikk kommer på sin side med like og ulikt tidsintervaller.

Den første serien med dynamikk konverteres til en serie gjennomsnittsverdier og en serie relative verdier (kjede og base). Slike tidsserier kalles avledede tidsserier.

Metoden for å beregne gjennomsnittsnivået i serien av dynamikk er forskjellig, på grunn av typen av serier av dynamikk. Bruk eksempler, vurder typene av tidsserier og formler for å beregne gjennomsnittsnivået.

Absolutte gevinster (Δy) viser hvor mange enheter det påfølgende nivået i serien har endret seg i forhold til det forrige (kolonne 3. - kjede absolutte inkrementer) eller sammenlignet med initialnivået (kolonne 4. - grunnleggende absolutte inkrementer). Beregningsformlene kan skrives som følger:

Med en nedgang i seriens absolutte verdier vil det være henholdsvis en "reduksjon", "reduksjon".

Absolutte vekstrater indikerer at for eksempel i 1998 ᴦ. produksjonen av produkt "A" har økt sammenlignet med 1997 ᴦ. med 4 tusen tonn, og sammenlignet med 1994 ᴦ. - med 34 tusen tonn; for andre år, se tabell. 11,5 gr.
Vert på ref.rf
3 og 4.

Vekstfaktor viser hvor mange ganger nivået i serien har endret seg sammenlignet med den forrige (kolonne 5 - kjedevekst- eller nedgangsfaktorer) eller sammenlignet med initialnivået (kolonne 6 - grunnleggende vekst- eller nedgangsfaktorer). Beregningsformlene kan skrives som følger:

Veksthastigheter vis hvor mange prosent neste nivå i serien er i forhold til det forrige (kolonne 7 - kjedeveksthastigheter) eller i sammenligning med startnivået (kolonne 8 - grunnleggende veksthastigheter). Beregningsformlene kan skrives som følger:

Så, for eksempel, i 1997 ᴦ. volumet av produksjon av produkt "A" sammenlignet med 1996 ᴦ. utgjorde 105,5 % (

Vekstrater vis hvor mange prosent nivået i rapporteringsperioden økte sammenlignet med den forrige (kolonne 9 - kjedeveksthastigheter) eller sammenlignet med initialnivået (kolonne 10 - grunnleggende vekstrater). Beregningsformlene kan skrives som følger:

T pr \u003d T p - 100% eller T pr \u003d absolutt økning / nivå av forrige periode * 100%

Så, for eksempel, i 1996 ᴦ. sammenlignet med 1995 ᴦ. produkt "A" ble produsert mer med 3,8% (103,8% - 100%) eller (8:210)x100%, og sammenlignet med 1994 ᴦ. - med 9 % (109 % - 100 %).

Hvis de absolutte nivåene i serien synker, vil hastigheten være mindre enn 100%, og følgelig vil det være en nedgang (veksthastighet med et minustegn).

Absolutt verdi på 1 % økning(gr.
Vert på ref.rf
11) viser hvor mange enheter som må produseres i en gitt periode for at nivået fra forrige periode skal øke med 1 %. I vårt eksempel, i 1995 ᴦ. det var nødvendig å produsere 2,0 tusen tonn, og i 1998 ᴦ. - 2,3 tusen tonn, ᴛ.ᴇ. mye større.

Det er to måter å bestemme størrelsen på den absolutte verdien av 1% vekst:

§ nivået for forrige periode delt på 100;

§ kjede absolutte inkrementer delt på tilsvarende kjedeveksthastigheter.

Absolutt verdi på 1 % økning =

I dynamikk, spesielt over en lang periode, er det viktig å i fellesskap analysere veksthastigheten med innholdet i hver prosentvis økning eller reduksjon.

Merk at den betraktede metodikken for å analysere tidsserier er anvendelig både for tidsserier, hvis nivåer er uttrykt i absolutte verdier (t, tusen rubler, antall ansatte, etc.), og for tidsserier, nivåene av som er uttrykt i relative indikatorer (% av skrap, % askeinnhold i kull, etc.) eller gjennomsnittsverdier (gjennomsnittlig avling i c/ha, gjennomsnittslønn osv.).

Sammen med de betraktede analytiske indikatorene beregnet for hvert år sammenlignet med forrige eller innledende nivå, når man analyserer tidsserier, er det ekstremt viktig å beregne gjennomsnittlige analytiske indikatorer for perioden: gjennomsnittsnivået for serien, den gjennomsnittlige årlige absolutte økningen (nedgang) og gjennomsnittlig årlig vekstrate og vekstrate .

Metoder for å beregne gjennomsnittsnivået til en serie av dynamikk ble diskutert ovenfor. I intervallserien med dynamikk vi vurderer, beregnes gjennomsnittsnivået til serien ved formelen for det aritmetiske gjennomsnittet enkelt:

Gjennomsnittlig årlig produksjon av produktet for 1994-1998. utgjorde 218,4 tusen tonn.

Den gjennomsnittlige årlige absolutte økningen beregnes også med formelen til det aritmetiske gjennomsnittet

Standardavvik - konsept og typer. Klassifisering og funksjoner i kategorien "Standardavvik" 2017, 2018.

Et av hovedverktøyene for statistisk analyse er beregningen av standardavviket. Denne indikatoren lar deg lage et estimat av standardavviket for et utvalg eller for den generelle populasjonen. La oss lære hvordan du bruker standardavviksformelen i Excel.

La oss umiddelbart definere hva standardavviket er og hvordan formelen ser ut. Denne verdien er kvadratroten av det aritmetiske gjennomsnittet av kvadratene av forskjellen mellom alle verdiene i serien og deres aritmetiske gjennomsnitt. Det er et identisk navn for denne indikatoren - standardavvik. Begge navnene er helt like.

Men selvfølgelig, i Excel, trenger ikke brukeren å beregne dette, siden programmet gjør alt for ham. La oss lære hvordan du beregner standardavvik i Excel.

Beregning i Excel

Du kan beregne den angitte verdien i Excel ved å bruke to spesialfunksjoner STDEV.B(ifølge prøven) og STDEV.G(ifølge befolkningen generelt). Prinsippet for deres operasjon er helt det samme, men de kan kalles på tre måter, som vi vil diskutere nedenfor.

Metode 1: Funksjonsveiviser


Metode 2: Formler-fanen


Metode 3: Skriv inn formelen manuelt

Det er også en måte hvor du ikke trenger å kalle argumentvinduet i det hele tatt. For å gjøre dette, skriv inn formelen manuelt.


Som du kan se, er mekanismen for å beregne standardavviket i Excel veldig enkel. Brukeren trenger bare å legge inn tall fra populasjonen eller lenke til celler som inneholder dem. Alle beregninger utføres av programmet selv. Det er mye vanskeligere å forstå hva den beregnede indikatoren er og hvordan resultatene av beregningen kan brukes i praksis. Men å forstå dette hører allerede mer til statistikkens område enn å lære å jobbe med programvare.

Standardavvik er en klassisk indikator på variabilitet fra beskrivende statistikk.

Standardavvik, standardavvik, RMS, prøvestandardavvik (engelsk standardavvik, STD, STDev) er et veldig vanlig mål for spredning i beskrivende statistikk. Men fordi teknisk analyse er beslektet med statistikk, denne indikatoren kan (og bør) brukes i teknisk analyse for å oppdage graden av spredning av prisen på det analyserte instrumentet over tid. Angitt med det greske symbolet Sigma "σ".

Takk til Karl Gauss og Pearson for at vi har mulighet til å bruke standardavviket.

Ved hjelp av standardavvik i teknisk analyse, vi snur dette "spredningsindeks"i "volatilitetsindikator«Beholde meningen, men endre begrepene.

Hva er standardavvik

Men i tillegg til mellomliggende hjelpeberegninger, standardavvik er ganske akseptabelt for selvberegning og applikasjoner innen teknisk analyse. Som bemerket av en aktiv leser av vårt magasinburdock, " Jeg forstår fortsatt ikke hvorfor RMS ikke er inkludert i settet med standardindikatorer for innenlandske handelssentre«.

Egentlig, standardavvik kan på en klassisk og "ren" måte måle variabiliteten til et instrument. Men dessverre er ikke denne indikatoren så vanlig i verdipapiranalyse.

Bruk av standardavviket

Manuell beregning av standardavviket er lite interessant. men nyttig for erfaring. Standardavviket kan uttrykkes formel STD=√[(∑(x-x ) 2)/n] , som høres ut som rotsummen av de kvadratiske forskjellene mellom prøveelementene og gjennomsnittet, delt på antall elementer i prøven.

Hvis antallet elementer i prøven overstiger 30, får nevneren til brøken under roten verdien n-1. Ellers brukes n.

steg for steg standardavviksberegning:

  1. beregne det aritmetiske gjennomsnittet av datautvalget
  2. trekk dette gjennomsnittet fra hvert element i prøven
  3. alle resulterende forskjeller kvadreres
  4. summer alle de resulterende kvadratene
  5. del den resulterende summen med antall elementer i prøven (eller med n-1 hvis n>30)
  6. beregne kvadratroten av den resulterende kvotienten (kalt spredning)

Spredning. Standardavvik

Spredning er det aritmetiske gjennomsnittet av kvadrerte avvik for hver funksjonsverdi fra det totale gjennomsnittet. Avhengig av kildedataene kan variansen være uvektet (enkel) eller vektet.

Spredningen beregnes ved hjelp av følgende formler:

for ugrupperte data

for grupperte data

Fremgangsmåten for å beregne den vektede variansen:

1. Bestem det aritmetiske vektede gjennomsnittet

2. Variantavvik fra gjennomsnittet bestemmes

3. kvadrat avviket for hvert alternativ fra gjennomsnittet

4. multipliser kvadrerte avvik med vekter (frekvenser)

5. oppsummere de mottatte arbeidene

6. den resulterende mengden deles på summen av vektene

Formelen for å bestemme variansen kan konverteres til følgende formel:

- enkelt

Prosedyren for å beregne variansen er enkel:

1. Bestem det aritmetiske gjennomsnittet

2. kvadrat det aritmetiske gjennomsnittet

3. kvadrat hver rad alternativ

4. finn summen av kvadrater alternativet

5. del summen av kvadratene til alternativet med antallet deres, dvs. bestem gjennomsnittskvadratet

6. bestem differansen mellom middelkvadrat for funksjonen og kvadratet av gjennomsnitt

Formelen for å bestemme den vektede variansen kan også konverteres til følgende formel:

de. variansen er lik differansen mellom gjennomsnittet av kvadratene til funksjonsverdiene og kvadratet av det aritmetiske gjennomsnittet. Når du bruker den transformerte formelen, ekskluderes en tilleggsprosedyre for å beregne avvikene til individuelle verdier av en funksjon fra x, og en feil i beregningen knyttet til avrundingsavvik er ekskludert

Dispersjonen har en rekke egenskaper, hvorav noen gjør det lettere å beregne:

1) spredningen av en konstant verdi er null;

2) hvis alle varianter av attributtverdiene reduseres med samme tall, vil ikke variansen reduseres;

3) hvis alle varianter av attributtverdiene reduseres med samme antall ganger (ganger), vil variansen reduseres med en faktor på

Standardavvik- er kvadratroten av variansen:

For ugrupperte data:

;

For en variantserie:

Variasjonsområdet, gjennomsnittlig lineært og gjennomsnittlig kvadratavvik er navngitte størrelser. De har samme måleenheter som de enkelte karakteristiske verdiene.

Spredning og standardavvik er de mest brukte målene for variasjon. Dette forklares med det faktum at de er inkludert i de fleste teoremer av sannsynlighetsteori, som fungerer som grunnlaget for matematisk statistikk. I tillegg kan variansen dekomponeres i dens bestanddeler, slik at man kan vurdere påvirkningen av ulike faktorer som forårsaker variasjonen av en egenskap.

Beregning av variasjonsindikatorer for banker gruppert etter resultat er vist i tabellen.

Fortjeneste, millioner rubler Antall banker beregnede indikatorer
3,7 - 4,6 (-) 4,15 8,30 -1,935 3,870 7,489
4,6 - 5,5 5,05 20,20 - 1,035 4,140 4,285
5,5 - 6,4 5,95 35,70 - 0,135 0,810 0,109
6,4 - 7,3 6,85 34,25 +0,765 3,825 2,926
7,3 - 8,2 7,75 23,25 +1,665 4,995 8,317
Total: 121,70 17,640 23,126

Gjennomsnittlig lineært og gjennomsnittlig kvadratavvik viser hvor mye verdien av attributtet svinger i gjennomsnitt for enhetene og populasjonen som studeres. Så, i dette tilfellet, er gjennomsnittsverdien av svingningen i fortjenestemengden: i henhold til gjennomsnittlig lineært avvik, 0,882 millioner rubler; i henhold til standardavviket - 1,075 millioner rubler. Standardavviket er alltid større enn det gjennomsnittlige lineære avviket. Hvis fordelingen av egenskapen er nær normalen, er det en sammenheng mellom S og d: S=1,25d, eller d=0,8S. Standardavviket viser hvordan hoveddelen av befolkningsenhetene er lokalisert i forhold til det aritmetiske gjennomsnittet. Uavhengig av distribusjonsform faller 75 attributtverdier innenfor x 2S-intervallet, og minst 89 av alle verdier faller innenfor x 3S-intervallet (P.L. Chebyshevs teorem).

X i - tilfeldige (gjeldende) verdier;

gjennomsnittsverdien av tilfeldige variabler i utvalget beregnes med formelen:

Så, varians er middelkvadrat for avvikene . Det vil si at gjennomsnittsverdien først beregnes og deretter tas forskjellen mellom hver opprinnelige verdi og gjennomsnittsverdi, i annen , legges til og deretter divideres med antall verdier i den gitte populasjonen.

Forskjellen mellom den individuelle verdien og gjennomsnittet gjenspeiler målet på avviket. Den kvadreres for å sikre at alle avvik utelukkende blir positive tall og for å unngå gjensidig kansellering av positive og negative avvik når de summeres. Så, gitt de kvadrerte avvikene, beregner vi ganske enkelt det aritmetiske gjennomsnittet.

Ledetråden til det magiske ordet "spredning" ligger i bare disse tre ordene: gjennomsnitt - kvadrat - avvik.

Standardavvik (RMS)

Ved å ta kvadratroten av dispersjonen får vi den såkalte " standardavvik". Det er navn "standardavvik" eller "sigma" (fra navnet på den greske bokstaven σ .). Formelen for standardavviket er:

Så, variansen er sigma i annen, eller - standardavvik i annen.

Standardavviket karakteriserer selvsagt også spredningsmålet for dataene, men nå (i motsetning til spredning) kan det sammenlignes med de opprinnelige dataene, siden de har samme måleenheter (dette fremgår tydelig av beregningsformelen). Variasjonsområdet er forskjellen mellom ekstremverdiene. Standardavvik, som et mål på usikkerhet, er også involvert i mange statistiske beregninger. Med dens hjelp etableres graden av nøyaktighet av ulike estimater og prognoser. Hvis variasjonen er veldig stor, vil standardavviket også være stort, derfor vil prognosen være unøyaktig, som for eksempel vil uttrykkes i svært brede konfidensintervaller.

Derfor, i metodene for statistisk databehandling i eiendomsvurderinger, avhengig av den nødvendige nøyaktigheten av oppgaven, brukes regelen om to eller tre sigmas.

For å sammenligne to sigma-regelen og tre sigma-regelen bruker vi Laplace-formelen:

F - F,

hvor Ф(x) er Laplace-funksjonen;



Minimumsverdi

β = maksimal verdi

s = sigmaverdi (standardavvik)

a = middelverdi

I dette tilfellet brukes en spesiell form av Laplace-formelen når grensene α og β for verdiene til den tilfeldige variabelen X er like fordelt fra distribusjonssenteret a = M(X) med en verdi d: a = a-d , b = a+d. Eller (1) Formel (1) bestemmer sannsynligheten for et gitt avvik d for en tilfeldig variabel X med en normalfordelingslov fra dens matematiske forventning М(X) = a. Hvis vi i formel (1) tar suksessivt d = 2s og d = 3s, får vi: (2), (3).

To sigma regel

Nesten pålitelig (med en konfidenssannsynlighet på 0,954) kan det hevdes at alle verdier av en tilfeldig variabel X med en normalfordelingslov avviker fra dens matematiske forventning M(X) = a med et beløp som ikke er større enn 2s (to standard). avvik). Konfidenssannsynlighet (Pd) er sannsynligheten for hendelser som er betinget akseptert som pålitelige (deres sannsynlighet er nær 1).

La oss illustrere regelen om to sigma geometrisk. På fig. 6 viser en gaussisk kurve med et distribusjonssenter a. Området avgrenset av hele kurven og okseaksen er 1 (100%), og arealet til den krumlinjede trapesen mellom abscissene a–2s og a+2s, i henhold til to sigma-regelen, er 0,954 (95,4 %) av det totale arealet). Arealet til de skraverte områdene er lik 1-0,954 = 0,046 (>5% av det totale arealet). Disse seksjonene kalles det kritiske området til den tilfeldige variabelen. Verdiene til en tilfeldig variabel som faller inn i det kritiske området er usannsynlig og blir i praksis betinget tatt som umulig.

Sannsynligheten for betinget umulige verdier kalles signifikansnivået til en tilfeldig variabel. Signifikansnivået er relatert til konfidensnivået med formelen:

hvor q er signifikansnivået, uttrykt i prosent.

Tre sigma regel

Ved løsning av problemer som krever større pålitelighet, når konfidenssannsynligheten (Pd) tas lik 0,997 (nærmere presist, 0,9973), i stedet for to-sigma-regelen, i henhold til formel (3), brukes regelen tre sigma.



I følge tre sigma regel med et konfidensnivå på 0,9973, vil det kritiske området være området for attributtverdiene utenfor intervallet (a-3s, a+3s). Signifikansnivået er 0,27 %.

Sannsynligheten for at den absolutte verdien av avviket vil overstige tre ganger standardavviket er med andre ord svært liten, nemlig 0,0027=1-0,9973. Dette betyr at bare i 0,27 % av tilfellene kan dette skje. Slike hendelser, basert på prinsippet om umuligheten av usannsynlige hendelser, kan anses som praktisk talt umulige. De. prøvetaking med høy presisjon.

Dette er essensen av tre sigma-regelen:

Hvis en tilfeldig variabel er normalfordelt, overstiger ikke den absolutte verdien av dens avvik fra den matematiske forventningen tre ganger standardavviket (RMS).

I praksis brukes tre-sigma-regelen som følger: hvis fordelingen av den tilfeldige variabelen som studeres er ukjent, men betingelsen spesifisert i regelen ovenfor er oppfylt, er det grunn til å anta at den studerte variabelen er normalfordelt; ellers er den ikke normalfordelt.

Nivået av betydning tas avhengig av tillatt grad av risiko og oppgaven. For eiendomsvurderinger tas vanligvis en mindre nøyaktig prøve, etter to sigma-regelen.