Biografier Kjennetegn Analyse

Konfidensintervall for matematisk forventning. Punkt- og intervallestimat av gjennomsnittet

Og andre Alle av dem er estimater av deres teoretiske analoger, som kan fås hvis ikke en prøve, men befolkning. Men dessverre, befolkningen generelt er veldig dyr og ofte utilgjengelig.

Konseptet med intervallestimering

Noen prøvevurdering har noe spredning, fordi er en tilfeldig variabel avhengig av verdiene i en bestemt prøve. Derfor, for mer pålitelige statistiske konklusjoner, bør man ikke bare vite punktestimat, men også et intervall som er høyst sannsynlig γ (gamma) dekker den evaluerte indikatoren θ (theta).

Formelt sett er dette to slike verdier (statistikk) T 1 (X) Og T 2 (X), Hva T 1< T 2 , for hvilket på et gitt sannsynlighetsnivå γ betingelsen er oppfylt:

Kort sagt, det er sannsynlig γ eller mer er den sanne indikatoren mellom punktene T 1 (X) Og T 2 (X), som kalles nedre og øvre grenser konfidensintervall.

En av betingelsene for å konstruere konfidensintervaller er dens maksimale smalhet, dvs. den skal være så kort som mulig. Ønsket er ganske naturlig, fordi... forskeren prøver å mer nøyaktig lokalisere plasseringen av ønsket parameter.

Det følger av det konfidensintervall må dekke de maksimale sannsynlighetene for fordelingen. og selve vurderingen bør stå i sentrum.

Det vil si at sannsynligheten for avvik (av den sanne indikatoren fra estimatet) oppover er lik sannsynligheten for avvik nedover. Det bør også bemerkes at for asymmetriske fordelinger er ikke intervallet til høyre lik intervallet Igjen.

Figuren over viser tydelig at jo større konfidenssannsynligheten er, desto bredere er intervallet - en direkte sammenheng.

Dette var en kort introduksjon til teorien. intervall estimering ukjente parametere. La oss gå videre til å finne konfidensgrenser for den matematiske forventningen.

Konfidensintervall for matematisk forventning

Hvis de opprinnelige dataene er fordelt over , vil gjennomsnittet være en normalverdi. Dette følger av regelen som en lineær kombinasjon av normale verdier også har normalfordeling. Derfor, for å beregne sannsynlighetene vi kunne bruke matematisk apparat normalfordelingsloven.

Dette vil imidlertid kreve å kjenne til to parametere - forventning og varians, som vanligvis er ukjente. Du kan selvfølgelig bruke estimater i stedet for parametere (aritmetisk gjennomsnitt og ), men da blir ikke fordelingen av gjennomsnittet helt normal, den blir litt flatet nedover. Dette faktum ble smart bemerket av innbygger William Gosset fra Irland, som publiserte oppdagelsen sin i mars 1908-utgaven av tidsskriftet Biometrica. Av hensyn til hemmelighold signerte Gosset seg Student. Slik så Student t-fordelingen ut.

Imidlertid er normalfordelingen av data brukt av K. Gauss i feilanalyse astronomiske observasjoner, er ekstremt sjelden i jordelivet og er ganske vanskelig å etablere (for høy presisjon ca 2 tusen observasjoner er nødvendig). Derfor er det best å forkaste antakelsen om normalitet og bruke metoder som ikke er avhengig av distribusjonen av de originale dataene.

Spørsmålet oppstår: hva er fordelingen av det aritmetiske gjennomsnittet hvis det beregnes fra dataene til en ukjent distribusjon? Svaret er gitt av den velkjente innen sannsynlighetsteori Sentral grensesetning (CPT). I matematikk finnes det flere varianter av det (formuleringene har blitt foredlet gjennom årene), men alle sammen, grovt sett, koker ned til påstanden om at summen stor mengde uavhengige tilfeldige variabler adlyder normal lov distribusjoner.

Ved beregning av det aritmetiske gjennomsnittet brukes summen av tilfeldige variabler. Herfra viser det seg at det aritmetiske gjennomsnittet har en normalfordeling, der forventningen er forventningen til de opprinnelige dataene, og variansen er .

Smarte mennesker vet hvordan man beviser CLT, men vi vil verifisere dette ved hjelp av et eksperiment utført i Excel. La oss simulere et utvalg av 50 jevnt fordelte tilfeldige variabler (ved hjelp av Excel-funksjoner CASE MELLOM). Så skal vi lage 1000 slike prøver og beregne det aritmetiske gjennomsnittet for hver. La oss se på fordelingen deres.

Man kan se at fordelingen av gjennomsnittet er nær normalloven. Hvis prøvestørrelsen og antallet gjøres enda større, blir likheten enda bedre.

Nå som vi med egne øyne har sett gyldigheten til CLT, kan vi ved å bruke , beregne konfidensintervaller for det aritmetiske gjennomsnittet, som med en gitt sannsynlighet dekker det sanne gjennomsnittet eller matematisk forventning.

For å etablere øvre og nedre grenser, må du kjenne parametrene til normalfordelingen. Som regel er det ingen, så estimater brukes: aritmetisk gjennomsnitt Og prøveavvik . Jeg gjentar, denne metoden gir en god tilnærming bare med store prøver. Når utvalgene er små, anbefales det ofte å bruke Studentfordelingen. Ikke tro det! Studentfordelingen for gjennomsnittet oppstår bare når de opprinnelige dataene er normalfordelt, det vil si nesten aldri. Derfor er det bedre å umiddelbart sette en minimumslinje for mengden nødvendige data og bruke asymptotisk korrekte metoder. De sier at 30 observasjoner er nok. Ta 50 - du vil ikke gå galt.

T 1.2– nedre og øvre grenser for konfidensintervallet

– eksempel aritmetisk gjennomsnitt

s 0– standardavvik for prøven (uhildet)

n – prøvestørrelse

γ – konfidenssannsynlighet (vanligvis lik 0,9, 0,95 eller 0,99)

c γ =Φ -1 ((1+γ)/2)gjensidig verdi funksjoner av standard normalfordeling. Enkelt sagt er dette antallet standardfeil fra det aritmetiske gjennomsnittet til den nedre eller øvre grensen (disse tre sannsynlighetene tilsvarer verdier på 1,64, 1,96 og 2,58).

Essensen av formelen er at det aritmetiske gjennomsnittet tas og deretter en viss mengde ( med γ) standardfeil ( s 0 /√n). Alt er kjent, ta det og vurder det.

Før den utbredte bruken av personlige datamaskiner, pleide de å oppnå verdiene til normalfordelingsfunksjonen og dens inverse. De brukes fortsatt nå, men det er mer effektivt å vende seg til ferdige Excel-formler. Alle elementer fra formelen ovenfor ( , og ) kan enkelt beregnes i Excel. Men det er en ferdig formel for å beregne konfidensintervallet - TRUST.NORM. Syntaksen er som følger.

KONFIDENS.NORM(alfa;standard_av;størrelse)

alfa– betydningsnivå eller konfidensnivå, som i notasjonen ovenfor er lik 1- γ, dvs. sannsynligheten for at den matematiskeforventningen vil være utenfor konfidensintervallet. Med et konfidensnivå på 0,95 er alfa 0,05 osv.

standard_av– standardavvik for prøvedata. Det er ikke nødvendig å beregne standardfeilen selve Excel vil dele med roten av n.

størrelse– prøvestørrelse (n).

Resultatet av KONFIDENS NORM-funksjonen er det andre leddet fra formelen for beregning av konfidensintervallet, dvs. halvt intervall Følgelig er de nedre og øvre punktene gjennomsnittet ± den oppnådde verdien.

Dermed er det mulig å konstruere en universell algoritme for å beregne konfidensintervaller for det aritmetiske gjennomsnittet, som ikke er avhengig av fordelingen av de opprinnelige dataene. Prisen for universalitet er dens asymptotiske natur, dvs. behovet for å bruke relativt store prøver. Imidlertid i alderen moderne teknologier samle nødvendig mengde data er vanligvis ikke vanskelig.

Testing av statistiske hypoteser ved hjelp av konfidensintervaller

(modul 111)

Et av hovedproblemene som løses i statistikk er. Dens essens er kort som følger. Det forutsettes for eksempel at forventningen til befolkningen generelt er lik en verdi. Deretter konstrueres fordelingen av utvalgsmidler som kan observeres for en gitt forventning. Deretter ser de på hvor i denne betingede fordelingen det reelle gjennomsnittet befinner seg. Hvis det går utover akseptable grenser, er utseendet til et slikt gjennomsnitt svært usannsynlig, og hvis eksperimentet gjentas en gang, er det nesten umulig, noe som er i strid med hypotesen som ble fremsatt, som ble avvist. Hvis gjennomsnittet ikke overstiger kritisk nivå, da er ikke hypotesen forkastet (men heller ikke bevist!).

Så, ved hjelp av konfidensintervaller, i vårt tilfelle for forventning, kan du også teste noen hypoteser. Det er veldig enkelt å gjøre. La oss si at det aritmetiske gjennomsnittet for et bestemt utvalg er lik 100. Hypotesen testes om at forventet verdi for eksempel er 90. Det vil si at hvis vi stiller spørsmålet primitivt, høres det slik ut: kan det være slik at med sann verdi av gjennomsnittet lik 90, viste det observerte gjennomsnittet seg å være 100?

For å svare på dette spørsmålet trenger du i tillegg informasjon om gjennomsnittet kvadratavvik og prøvestørrelse. La oss si standardavvik er 30, og antall observasjoner er 64 (slik at roten lett kan trekkes ut). Da er standardfeilen til gjennomsnittet 30/8 eller 3,75. For å beregne et 95 % konfidensintervall, må du sette av to til hver side av gjennomsnittet. standard feil(mer presist, 1,96 hver). Konfidensintervallet vil være omtrent 100±7,5 eller fra 92,5 til 107,5.

Ytterligere begrunnelse er som følger. Hvis verdien som testes faller innenfor konfidensintervallet, så motsier den ikke hypotesen, fordi faller innenfor grensene for tilfeldige svingninger (med en sannsynlighet på 95%). Hvis punktet som kontrolleres faller utenfor konfidensintervallet, er sannsynligheten for en slik hendelse svært liten, i alle fall under det akseptable nivået. Dette betyr at hypotesen avvises som motsier de observerte dataene. I vårt tilfelle er hypotesen om forventet verdi utenfor konfidensintervallet (den testede verdien på 90 er ikke inkludert i intervallet 100±7,5), så den bør forkastes. Ved å svare på det primitive spørsmålet ovenfor, bør det sies: nei, det kan ikke i alle fall, dette skjer ekstremt sjelden. Ofte indikerer de den spesifikke sannsynligheten for å feilaktig forkaste hypotesen (p-nivå), og ikke det spesifiserte nivået som konfidensintervallet ble konstruert på, men mer om det en annen gang.

Som du kan se, er det ikke vanskelig å konstruere et konfidensintervall for gjennomsnittet (eller den matematiske forventningen). Det viktigste er å forstå essensen, og så vil ting gå videre. I praksis bruker de fleste tilfeller et 95 % konfidensintervall, som er omtrent to standardfeil brede på hver side av gjennomsnittet.

Det var alt for nå. Alt godt!

Ofte må takstmannen analysere eiendomsmarkedet i det segmentet eiendommen som vurderes befinner seg i. Hvis markedet er utviklet, kan det være vanskelig å analysere hele settet med presenterte objekter, så et utvalg objekter brukes til analyse. Denne prøven viser seg ikke alltid å være homogen, noen ganger er det nødvendig å fjerne ekstreme punkter - for høye eller for lave markedstilbud. Til dette formålet brukes den konfidensintervall. Mål denne studien- gjennomføre en komparativ analyse av to metoder for å beregne konfidensintervallet og velge beste alternativet beregninger ved arbeid med ulike prøver i estimatica.pro-systemet.

Konfidensintervall er et intervall av attributtverdier beregnet på grunnlag av et utvalg, som med kjent sannsynlighet inneholder den estimerte parameteren til den generelle befolkningen.

Poenget med å beregne et konfidensintervall er å konstruere et slikt intervall basert på utvalgsdata slik at det med en gitt sannsynlighet kan oppgis at verdien av den estimerte parameteren er i dette intervallet. Med andre ord inneholder konfidensintervallet med en viss sannsynlighet ukjent verdi estimert verdi. Jo bredere intervall, jo høyere unøyaktighet.

Det finnes ulike metoder for å bestemme konfidensintervallet. I denne artikkelen vil vi se på 2 metoder:

  • gjennom median og gjennomsnitt standardavvik;
  • gjennom kritisk verdi av t-statistikk (Students koeffisient).

Stadier komparativ analyse forskjellige måter CI-beregning:

1. danne et dataeksempel;

2. behandle det statistiske metoder: beregne gjennomsnitt, median, varians osv.;

3. beregne konfidensintervallet på to måter;

4. analysere de rensede prøvene og de resulterende konfidensintervallene.

Trinn 1. Dataprøvetaking

Prøven ble dannet ved hjelp av estimatica.pro-systemet. Utvalget inkluderte 91 tilbud om salg av 1-roms leiligheter i den tredje prissonen med "Khrusjtsjov" -typen.

Tabell 1. Startprøve

Pris 1 kvm, enhet

Fig.1. Opprinnelig prøve



Trinn 2. Behandling av den første prøven

Behandling av et utvalg ved hjelp av statistiske metoder krever beregning av følgende verdier:

1. Aritmetisk gjennomsnitt

2. Median er et tall som karakteriserer prøven: nøyaktig halvparten av prøveelementene er større enn medianen, den andre halvparten er mindre enn medianen

(for en prøve med et oddetall verdier)

3. Område - forskjellen mellom maksimums- og minimumsverdiene i prøven

4. Varians - brukes til å mer nøyaktig estimere variasjonen av data

5. Prøvestandardavvik (heretter - SD) er den vanligste indikatoren på spredningen av justeringsverdier rundt det aritmetiske gjennomsnittet.

6. Variasjonskoeffisient - reflekterer graden av spredning av justeringsverdier

7. oscillasjonskoeffisient - reflekterer relativ oscillasjon ekstreme verdier prisene i utvalget rundt gjennomsnittet

Tabell 2. Statistiske indikatorer original prøve

Variasjonskoeffisienten, som karakteriserer homogeniteten til dataene, er 12,29 %, men oscillasjonskoeffisienten er for høy. Dermed kan vi si at den opprinnelige prøven ikke er homogen, så la oss gå videre til å beregne konfidensintervallet.

Trinn 3. Konfidensintervallberegning

Metode 1. Beregning med median og standardavvik.

Konfidensintervallet er definert som følger: minimumsverdi- standardavviket trekkes fra medianen; maksimal verdi - standardavvik legges til medianen.

Dermed er konfidensintervallet (47179 CU; 60689 CU)

Ris. 2. Verdier som faller innenfor konfidensintervall 1.



Metode 2. Konstruere et konfidensintervall ved å bruke den kritiske verdien av t-statistikk (studentkoeffisient)

S.V. Gribovsky i boken " Matematiske metoder Estimere verdien av eiendom" beskriver en metode for å beregne et konfidensintervall ved å bruke Student-koeffisienten. Ved beregning ved bruk av denne metoden må estimatoren selv sette signifikansnivået ∝, som bestemmer sannsynligheten for at konfidensintervallet vil bli konstruert. Vanligvis brukes signifikansnivåer på 0,1; 0,05 og 0,01. De tilsvarer konfidenssannsynligheter på 0,9; 0,95 og 0,99. Med denne metoden antas det sanne verdier matematisk forventning og varians er praktisk talt ukjent (noe som nesten alltid er sant når man løser praktiske estimeringsproblemer).

Konfidensintervallformel:

n - prøvestørrelse;

Den kritiske verdien av t-statistikk (elevfordeling) med et signifikansnivå ∝, antall frihetsgrader n-1, som bestemmes fra spesielle statistiske tabeller eller ved bruk av MS Excel (→"Statistical"→ STUDIST);

∝ - signifikansnivå, ta ∝=0,01.

Ris. 2. Verdier som faller innenfor konfidensintervall 2.

Trinn 4. Analyse av ulike metoder for beregning av konfidensintervall

To metoder for å beregne konfidensintervallet – gjennom medianen og Students koeffisient – ​​førte til forskjellige betydninger intervaller. Følgelig fikk vi to forskjellige rensede prøver.

Tabell 3. Statistikk for tre utvalg.

Indikator

Opprinnelig prøve

1 alternativ

Alternativ 2

Gjennomsnittlig verdi

Spredning

Coef. variasjoner

Coef. svingninger

Antall pensjonerte objekter, stk.

Basert på de utførte beregningene kan vi si at konfidensintervallverdiene oppnådd ved forskjellige metoder krysser hverandre, slik at du kan bruke hvilken som helst av beregningsmetodene etter takstmannens skjønn.

Vi mener imidlertid at når du arbeider i estimatica.pro-systemet, er det tilrådelig å velge en metode for å beregne konfidensintervallet avhengig av graden av markedsutvikling:

  • hvis markedet er uutviklet, bruk beregningsmetoden ved å bruke median og standardavvik, siden antallet pensjonerte objekter i dette tilfellet er lite;
  • hvis markedet er utviklet, bruk beregningen gjennom den kritiske verdien av t-statistikk (Students koeffisient), siden det er mulig å danne et stort innledende utvalg.

I utarbeidelsen av artikkelen ble følgende brukt:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematiske metoder for å vurdere eiendomsverdi. Moskva, 2014

2. Systemdata estimatica.pro

La CB X danne en generell populasjon og la β være den ukjente parameteren CB X. Hvis det statistiske estimatet i * er konsistent, så får vi verdien av β jo større utvalgsstørrelsen er, jo mer nøyaktig. Men i praksis har vi ikke veldig store prøver, så vi kan ikke garantere større nøyaktighet.

La b* være et statistisk estimat for c. Verdi |in* - in| kalles estimeringsnøyaktighet. Det er tydelig at nøyaktigheten er CB, siden β* er en tilfeldig variabel. La oss sette en liten positivt tall 8 og krever at nøyaktigheten til estimatet |в* - в| var mindre enn 8, dvs. | i* - i |< 8.

Pålitelighet g eller tillitssannsynlighet estimater in by in * er sannsynligheten g som ulikheten |in * - in|< 8, т. е.

Vanligvis er pålitelighet g spesifisert på forhånd, og g antas å være et tall nær 1 (0,9; 0,95; 0,99; ...).

Siden ulikheten |in * - in|< S равносильно dobbel ulikhet i* - S< в < в* + 8, то получаем:

Intervallet (i * - 8, i * + 5) kalles et konfidensintervall, det vil si at konfidensintervallet dekker den ukjente parameteren i med sannsynlighet y. Merk at endene på konfidensintervallet er tilfeldige og varierer fra utvalg til utvalg, så det er mer nøyaktig å si at intervallet (i * - 8, i * + 8) dekker den ukjente parameteren i, i stedet for i tilhører denne intervall.

La populasjonen være definert av en tilfeldig variabel X, fordelt etter en normallov, og standardavviket a er kjent. Det ukjente er den matematiske forventningen a = M (X). Det kreves å finne konfidensintervallet for a for en gitt pålitelighet y.

Eksempel gjennomsnitt

er statistisk vurdering for xg = a.

Teorem. Tilfeldig variabel xB har en normalfordeling hvis X har en normalfordeling og M(XB) = a,

A (XB) = a, hvor a = y/B (X), a = M (X). l/i

Konfidensintervallet for a har formen:

Vi finner 8.

Bruke forholdet

der Ф(r) er Laplace-funksjonen, har vi:

P ( | XB - a |<8} = 2Ф

verditabell for Laplace-funksjonen finner vi verdien av t.

Etter å ha utpekt

T, får vi F(t) = g Siden g er gitt, da ved

Fra likheten finner vi at estimatet er nøyaktig.

Dette betyr at konfidensintervallet for a har formen:

Gitt et utvalg fra populasjonen X

ng Til" X2 Xm
n. n1 n2 nm

n = U1 + ... + nm, da vil konfidensintervallet være:

Eksempel 6.35. Finn konfidensintervallet for å estimere den matematiske forventningen a til normalfordelingen med en reliabilitet på 0,95, vel vitende om prøvegjennomsnittet Xb = 10,43, utvalgsstørrelsen n = 100 og standardavviket s = 5.

La oss bruke formelen

La oss konstruere et konfidensintervall i MS EXCEL for å estimere middelverdien av fordelingen i tilfelle av en kjent spredningsverdi.

Selvfølgelig valget nivå av tillit helt avhengig av at problemet løses. Dermed bør graden av tillit hos en flypassasjer til påliteligheten til et fly utvilsomt være høyere enn graden av tillit hos en kjøper til påliteligheten til en elektrisk lyspære.

Problemformulering

La oss anta at fra befolkning har blitt tatt prøve størrelse n. Det antas at standardavvik denne fordelingen er kjent. Det er nødvendig basert på dette prøver vurdere det ukjente distribusjonsmiddel(μ, ) og konstruer tilsvarende dobbeltsidig konfidensintervall.

Poeng estimat

Som kjent fra statistikk(la oss betegne det X gj.sn) er objektivt estimat av gjennomsnittet dette befolkning og har en fordeling N(μ;σ 2 /n).

Note: Hva du skal gjøre hvis du trenger å bygge konfidensintervall ved en fordeling som er ikke normal? I dette tilfellet kommer til unnsetning, som sier at med en tilstrekkelig stor størrelse prøver n fra distribusjon ikke være normal, utvalgsfordeling av statistikk X gj.sn vilje omtrent korrespondere normalfordeling med parametere N(μ;σ 2 /n).

Så, punktestimat gjennomsnittlig distribusjonsverdier vi har - dette prøvegjennomsnitt, dvs. X gj.sn. La oss nå komme i gang konfidensintervall.

Konstruere et konfidensintervall

Vanligvis, når vi kjenner fordelingen og dens parametere, kan vi beregne sannsynligheten for at den tilfeldige variabelen vil ta en verdi fra intervallet vi spesifiserer. La oss nå gjøre det motsatte: finn intervallet der den tilfeldige variabelen vil falle med en gitt sannsynlighet. For eksempel fra eiendommene normalfordeling det er kjent at med en sannsynlighet på 95 % er en tilfeldig variabel fordelt over normal lov, vil falle innenfor området på omtrent +/- 2 fra gjennomsnittsverdi(se artikkel om). Dette intervallet vil fungere som en prototype for oss konfidensintervall.

La oss nå se om vi kjenner fordelingen , å beregne dette intervallet? For å svare på spørsmålet må vi angi formen på fordelingen og dens parametere.

Vi kjenner distribusjonsformen - dette er normalfordeling(husk at vi snakker om prøvetakingsfordeling statistikk X gj.sn).

Parameteren μ er ukjent for oss (den må bare estimeres ved hjelp av konfidensintervall), men vi har et estimat på det X gj.sn. beregnet ut fra prøver, som kan brukes.

Andre parameter - standardavvik for prøvegjennomsnitt vi vil anse det som kjent, den er lik σ/√n.

Fordi vi vet ikke μ, da bygger vi intervallet +/- 2 standardavvik ikke fra gjennomsnittsverdi, og fra dets kjente estimat X gj.sn. De. ved beregning konfidensintervall det vil vi IKKE anta X gj.sn faller innenfor området +/- 2 standardavvik fra μ med en sannsynlighet på 95 %, og vi vil anta at intervallet er +/- 2 standardavvik fra X gj.sn med 95 % sannsynlighet vil den dekke μ - gjennomsnittet av befolkningen generelt, som det er tatt fra prøve. Disse to påstandene er likeverdige, men den andre påstanden lar oss konstruere konfidensintervall.

La oss i tillegg avklare intervallet: en tilfeldig variabel fordelt over normal lov, med 95 % sannsynlighet faller innenfor intervallet +/- 1,960 standardavvik, ikke +/- 2 standardavvik. Dette kan beregnes ved hjelp av formelen =NORM.ST.REV((1+0,95)/2), cm. eksempel fil Sheet Interval.

Nå kan vi formulere en sannsynlighetserklæring som vil tjene oss til å danne konfidensintervall:
"Sannsynligheten for at gjennomsnittlig befolkning ligger fra prøvegjennomsnitt innen 1 960 " standardavvik for prøvegjennomsnittet", lik 95 %".

Sannsynlighetsverdien nevnt i utsagnet har et spesielt navn , som er knyttet til signifikansnivå α (alfa) ved et enkelt uttrykk nivå av tillit =1 . I vårt tilfelle betydningsnivå α =1-0,95=0,05 .

Nå, basert på denne sannsynlighetserklæringen, skriver vi et uttrykk for beregning konfidensintervall:

hvor Z α/2 standard normalfordeling(denne verdien av den tilfeldige variabelen z, Hva P(z>=Z a/2 )=α/2).

Note: Øvre α/2-kvantil definerer bredden konfidensintervall V standardavvik prøvegjennomsnitt. Øvre α/2-kvantil standard normalfordeling alltid større enn 0, noe som er veldig praktisk.

I vårt tilfelle, med α=0,05, øvre α/2-kvantil tilsvarer 1,960. For andre signifikansnivåer α (10 %; 1 %) øvre α/2-kvantil Z a/2 kan beregnes ved hjelp av formelen =NORM.ST.REV(1-α/2) eller, hvis kjent nivå av tillit, =NORM.ST.OBR((1+tillitsnivå)/2).

Vanligvis når man bygger konfidensintervaller for å estimere gjennomsnittet kun bruk øvre α/2-kvantil og ikke bruk lavere α/2-kvantil. Dette er mulig pga standard normalfordeling symmetrisk om x-aksen ( dens distribusjonstetthet symmetrisk om gjennomsnittlig, dvs. 0). Derfor er det ikke nødvendig å beregne lavere α/2-kvantil(det kalles ganske enkelt α /2-kvantil), fordi det er likt øvre α/2-kvantil med et minustegn.

La oss huske at, til tross for formen på fordelingen av verdien x, den tilsvarende tilfeldige variabelen X gj.sn distribuert omtrent Fin N(μ;σ 2 /n) (se artikkel om). Derfor, generelt, uttrykket ovenfor for konfidensintervall er bare en tilnærming. Hvis verdien x er fordelt over normal lov N(μ;σ 2 /n), deretter uttrykket for konfidensintervall er nøyaktig.

Konfidensintervallberegning i MS EXCEL

La oss løse problemet.
Responstiden til en elektronisk komponent på et inngangssignal er en viktig egenskap ved enheten. En ingeniør ønsker å konstruere et konfidensintervall for gjennomsnittlig responstid på et konfidensnivå på 95 %. Av tidligere erfaring vet ingeniøren at standardavviket for responstid er 8 ms. Det er kjent at for å evaluere responstiden, gjorde ingeniøren 25 målinger, gjennomsnittsverdien var 78 ms.

Løsning: En ingeniør vil vite responstiden til en elektronisk enhet, men han forstår at responstiden ikke er en fast verdi, men en tilfeldig variabel som har sin egen fordeling. Så det beste han kan håpe på er å bestemme parametrene og formen til denne fordelingen.

Ut fra problemforholdene vet vi dessverre ikke formen på responstidsfordelingen (det trenger ikke å være det normal). , denne fordelingen er også ukjent. Bare han er kjent standardavvikσ=8. Derfor, mens vi ikke kan beregne sannsynlighetene og konstruere konfidensintervall.

Men til tross for at vi ikke kjenner fordelingen tid separat svar, det vet vi iht CPT, prøvetakingsfordeling gjennomsnittlig responstid er ca normal(vi vil anta at betingelsene CPT utføres, fordi størrelse prøver ganske stor (n=25)) .

Dessuten, gjennomsnittlig denne fordelingen er lik gjennomsnittsverdi fordeling av en enkelt respons, dvs. μ. EN standardavvik av denne fordelingen (σ/√n) kan beregnes ved å bruke formelen =8/ROOT(25) .

Det er også kjent at ingeniøren mottok punktestimat parameter μ lik 78 ms (X snitt). Derfor kan vi nå beregne sannsynligheter, fordi vi kjenner distribusjonsformen ( normal) og dens parametere (X avg og σ/√n).

Ingeniøren vil vite matematisk forventningμ responstidsfordelinger. Som nevnt ovenfor er denne μ lik matematisk forventning til utvalgsfordelingen av gjennomsnittlig responstid. Hvis vi bruker normalfordeling N(Х avg; σ/√n), da vil den ønskede μ være i området +/-2*σ/√n med en sannsynlighet på omtrent 95 %.

Betydningsnivå tilsvarer 1-0,95=0,05.

Til slutt, la oss finne venstre og høyre kantlinje konfidensintervall.
Venstre kantlinje: =78-NORM.ST.INV(1-0,05/2)*8/ROOT(25) = 74,864
Høyre kantlinje: =78+NORM.ST.INV(1-0,05/2)*8/ROOT(25)=81,136

Venstre kantlinje: =NORM.REV(0,05/2; 78; 8/ROOT(25))
Høyre kantlinje: =NORM.REV(1-0,05/2; 78; 8/ROOT(25))

Svare: konfidensintervall95 % konfidensnivå og σ=8msek lik 78+/-3,136 ms.

I eksempelfil på Sigma-arket kjent, laget et skjema for beregning og konstruksjon dobbeltsidig konfidensintervall for vilkårlig prøver med gitt σ og betydningsnivå.

CONFIDENCE.NORM()-funksjonen

Hvis verdiene prøver er i området B20:B79 , A betydningsnivå lik 0,05; deretter MS EXCEL-formelen:
=GJENNOMSNITT(B20:B79)-TILLIT.NORM(0,05;σ; ANTALL(B20:B79))
vil returnere venstre kantlinje konfidensintervall.

Den samme grensen kan beregnes ved hjelp av formelen:
=GJENNOMSNITT(B20:B79)-NORM.ST.REV(1-0,05/2)*σ/ROOT(ANTALL(B20:B79))

Note: CONFIDENCE.NORM()-funksjonen dukket opp i MS EXCEL 2010. I tidligere versjoner av MS EXCEL ble TRUST()-funksjonen brukt.

La en tilfeldig variabel (vi kan snakke om en generell populasjon) fordeles etter en normallov, hvor variansen D = 2 (> 0) er kjent. Fra den generelle populasjonen (på settet med objekter som en tilfeldig variabel bestemmes av), lages et utvalg av størrelse n. Utvalget x 1 , x 2 ,..., x n betraktes som et sett av n uavhengige tilfeldige variabler fordelt på samme måte som (tilnærmingen forklart ovenfor i teksten).

Følgende likheter ble også diskutert og bevist tidligere:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Det er nok å ganske enkelt bevise (vi utelater beviset) at den tilfeldige variabelen i dette tilfellet også er fordelt etter normalloven.

La oss betegne den ukjente mengden M med a og velge, basert på den gitte påliteligheten, tallet d > 0 slik at betingelsen er oppfylt:

P(- a< d) = (1)

Siden den tilfeldige variabelen er fordelt etter normalloven med matematisk forventning M = M = a og varians D = D /n = 2 /n, får vi:

P(- a< d) =P(a - d < < a + d) =

Det gjenstår å velge d slik at likheten holder

For en hvilken som helst kan du bruke tabellen til å finne et tall t slik at (t)= / 2. Dette tallet t kalles noen ganger kvantil.

Nå fra likestilling

la oss bestemme verdien av d:

Vi får det endelige resultatet ved å presentere formel (1) i skjemaet:

Betydningen av den siste formelen er som følger: med pålitelighet, konfidensintervallet

dekker den ukjente parameteren a = M av populasjonen. Vi kan si det annerledes: punktestimatet bestemmer verdien av parameteren M med nøyaktighet d= t / og pålitelighet.

Oppgave. La det være en populasjon med en viss karakteristikk fordelt etter en normallov med varians lik 6,25. En prøvestørrelse på n = 27 ble tatt og gjennomsnittlig prøveverdi av karakteristikken ble oppnådd = 12. Finn et konfidensintervall som dekker den ukjente matematiske forventningen til den studerte karakteristikken til den generelle populasjonen med reliabilitet = 0,99.

Løsning. Først, ved å bruke tabellen for Laplace-funksjonen, finner vi verdien av t fra likheten (t) = / 2 = 0,495. Basert på den oppnådde verdien t = 2,58, bestemmer vi nøyaktigheten av estimatet (eller halvparten av lengden av konfidensintervallet) d: d = 2,52,58 / 1,24. Herfra får vi ønsket konfidensintervall: (10.76; 13.24).

statistisk hypotese generell variasjon

Konfidensintervall for den matematiske forventningen til en normalfordeling med ukjent varians

La være en tilfeldig variabel fordelt i henhold til en normallov med en ukjent matematisk forventning M, som vi betegner med bokstaven a. La oss lage et utvalg av volum n. La oss bestemme gjennomsnittsprøven og korrigert prøvevarians s 2 ved å bruke kjente formler.

Tilfeldig variabel

fordelt etter Studentlov med n - 1 frihetsgrader.

Oppgaven er å finne et tall t for en gitt pålitelighet og antall frihetsgrader n - 1 slik at likheten

eller tilsvarende likestilling

Her i parentes er det skrevet betingelsen om at verdien av den ukjente parameteren a tilhører et visst intervall, som er konfidensintervallet. Dens grenser avhenger av påliteligheten så vel som prøvetakingsparametrene og s.

For å bestemme verdien av t etter størrelse, transformerer vi likhet (2) til formen:

Nå, ved å bruke tabellen for en tilfeldig variabel t fordelt i henhold til Students lov, ved å bruke sannsynlighet 1 - og antall frihetsgrader n - 1, finner vi t. Formel (3) gir svaret på problemet som stilles.

Oppgave. I kontrolltester av 20 elektriske lamper var den gjennomsnittlige varigheten av deres drift lik 2000 timer med et standardavvik (beregnet som kvadratroten av den korrigerte prøvevariansen) lik 11 timer. Det er kjent at driftstiden til en lampe er en normalfordelt tilfeldig variabel. Bestem med en reliabilitet på 0,95 et konfidensintervall for den matematiske forventningen til denne tilfeldige variabelen.

Løsning. Verdi 1 - i dette tilfellet lik 0,05. I følge Studentfordelingstabellen, med antall frihetsgrader lik 19, finner vi: t = 2,093. La oss nå beregne nøyaktigheten til estimatet: 2,093121/ = 56,6. Herfra får vi det nødvendige konfidensintervallet: (1943.4; 2056.6).