Biografier Kjennetegn Analyse

Konfidensintervall. Hva er det og hvordan kan det brukes? Konfidenssannsynligheter og signifikansnivåer

De vurderte punktestimatene av distribusjonsparametrene gir et estimat i form av et tall nærmest verdien av den ukjente parameteren. Slike estimater brukes kun for et stort antall målinger. Jo mindre prøvestørrelsen er, desto lettere er det å gjøre en feil når du velger en parameter. For praksis er det viktig ikke bare å få et punktestimat, men også å bestemme intervallet, kalt tillitsfull, mellom grensene som med en gitt troverdig sannsynlighet

hvor q - Signifikansnivå; x n, x b - de nedre og øvre grensene for intervallet, den sanne verdien av den estimerte parameteren er funnet.

Generelt kan konfidensintervaller konstrueres basert på Chebyshevs ulikheter. For enhver fordelingslov for en tilfeldig variabel med momenter av de to første ordene, den øvre grensen for sannsynligheten for avviket til den tilfeldige variabelen x fra sentrum av fordelingen X c faller innenfor intervallet tS x beskrevet av Chebyshevs ulikhet

hvor S x - estimering av standardavviket til fordelingen; t - positivt tall.

For å finne et konfidensintervall trenger du ikke kjenne loven for distribusjon av observasjonsresultater, men du trenger å kjenne anslaget for standardavviket. Intervallene oppnådd ved å bruke Chebyshevs ulikhet viser seg å være for brede for praksis. Dermed tilsvarer en konfidenssannsynlighet på 0,9 for mange distribusjonslover et konfidensintervall på 1,6 S X . Chebyshevs ulikhet gir i dette tilfellet 3,16 S X . På grunn av dette har det ikke blitt utbredt.

I metrologisk praksis brukes de hovedsakelig kvantile estimater konfidensintervall. Under 100 P-prosent kvantil x p forstås som abscissen til en slik vertikal linje, til venstre for hvilken arealet under fordelingstetthetskurven er lik P%. Med andre ord, kvantil- dette er verdien av en tilfeldig variabel (feil) med en gitt konfidenssannsynlighet P. For eksempel er medianen av fordelingen 50 % kvantilen x 0,5.

I praksis kalles 25 og 75 % kvantilene vanligvis folder, eller kvantiler av distribusjonen. Mellom dem ligger 50% av alle mulige verdier av den tilfeldige variabelen, og de resterende 50% ligger utenfor dem. Intervallet av verdier for en tilfeldig variabel x mellom x 0 05 og x 0 95 dekker 90 % av alle mulige verdier og kalles interkvantit intervall med 90 % sannsynlighet. Dens lengde er d 0,9 = x 0,95 - x 0,05.

Basert på denne tilnærmingen introduseres konseptet kvantile feilverdier, de. feilverdier med en gitt konfidenssannsynlighet P - grenser for usikkerhetsintervallet ±D D = ± (x p - x 1-p)/2 = ± d s /2. Langs dens lengde er det P%-verdier av en tilfeldig variabel (feil), En q = (1- P)% av deres totale antall forblir utenfor dette intervallet.

For å få et intervallestimat av en normalfordelt tilfeldig variabel, er det nødvendig:

Bestem punktestimatet til MO x̅ og standardavvik S x tilfeldig variabel i henhold til henholdsvis formler (6.8) og (6.11);

Velg konfidenssannsynligheten P fra det anbefalte verdiområdet 0,90; 0,95; 0,99;

Finn de øvre x i og nedre x n-grensene i samsvar med ligningene

innhentet under hensyntagen til (6.1). Verdiene til x n og x b bestemmes fra verditabeller for integralfordelingsfunksjonen F(t ) eller Laplace-funksjonen Ф(1).

Det resulterende konfidensintervallet tilfredsstiller betingelsen

(6.13)

hvor n - antall målte verdier; z s - argumentet til Laplace-funksjonen Ф(1), som tilsvarer sannsynligheten Р/2. I dette tilfellet z s kalt kvantilfaktoren. Halve lengden av konfidensintervallet kalles konfidensgrensen for feilen til måleresultatet.

Eksempel 6.1. Det ble foretatt 50 målinger av konstant motstand. Bestem konfidensintervallet for MO-verdien til den konstante motstanden hvis fordelingsloven er normal med parametrene m x = R = 590 Ohm, S x = 90 Ohm med konfidenssannsynlighet P = 0,9.

Siden hypotesen om normaliteten til distribusjonsloven ikke motsier eksperimentelle data, bestemmes konfidensintervallet av formelen

Derfor Ф(z р ) = 0,45. Fra tabellen gitt i vedlegg 1 finner vi det z s = 1,65. Derfor vil konfidensintervallet skrives som

Eller 590 - 21< R < 590 + 21. Окончательно 509 Ом < R< 611 Ом.

Hvis fordelingsloven til en tilfeldig variabel er forskjellig fra normalen, er det nødvendig å konstruere dens matematiske modell og bestemme konfidensintervallet ved å bruke den.

Den vurderte metoden for å finne konfidensintervaller er gyldig for et tilstrekkelig stort antall observasjoner n når s= S x . Det bør huskes at det beregnede estimatet av standardavviket S x er bare en viss tilnærming til den sanne verdiens. Bestemmelsen av et konfidensintervall for en gitt sannsynlighet viser seg å være mindre pålitelig, jo mindre antall observasjoner. Det er umulig å bruke normalfordelingsformler med et lite antall observasjoner dersom det ikke er mulig å teoretisk bestemme standardavviket basert på foreløpige forsøk med et tilstrekkelig stort antall observasjoner.

Beregning av konfidensintervaller for tilfellet når fordelingen av observasjonsresultater er normal, men deres varians er ukjent, dvs. med et lite antall observasjoner n er det mulig å utføre ved hjelp av Student-fordelingen S(t,k ). Den beskriver fordelingstettheten til forholdet (Studentens brøk):

hvor Q - sann verdi av den målte mengden. Verdier x̅ , S x . og S x beregnes på grunnlag av eksperimentelle data og representerer punktestimat av MO, standardavvik for måleresultater og standardavvik av aritmetisk middelverdi.

Sannsynligheten for at Student-brøken, som et resultat av observasjonene som er gjort, vil få en viss verdi i intervallet (- t p; +tp)

(6.14)

hvor k - antall frihetsgrader lik (n - 1). Mengder tp (kalt i dette tilfellet Elevens koeffisienter), beregnet ved hjelp av de to siste formlene for ulike verdier av konfidenssannsynlighet og antall målinger, er tabellert (se tabell i vedlegg 1). Ved å bruke Studentfordelingen kan du derfor finne sannsynligheten for at avviket til det aritmetiske gjennomsnittet fra den sanne verdien av den målte verdien ikke overskrider

I tilfeller hvor fordelingen av tilfeldige feil ikke er normal, brukes Studentfordelingen ofte med en tilnærming, hvor graden forblir ukjent. Studentfordelingen brukes for antall målinger n < 30, поскольку уже при n = 20, ...,30 blir det normalt og i stedet for ligning (6.14) kan vi bruke ligning (6.13). Måleresultatet skrives på skjemaet: ; P = Р d, der Р d er den spesifikke verdien av konfidenssannsynligheten. Faktor t med et stort antall målinger n lik kvantilfaktoren z p. For liten n den er lik studentkoeffisienten.

Det resulterende måleresultatet er ikke ett spesifikt tall, men representerer et intervall innenfor hvilket, med en viss sannsynlighet P d, den sanne verdien av den målte verdien befinner seg. Å markere midten av intervallet x betyr ikke i det hele tatt at den sanne verdien er nærmere det enn andre punkter i intervallet. Det kan være hvor som helst i intervallet, og med sannsynlighet 1 - Р d også utenfor det.

Eksempel 6.2. Bestemmelse av spesifikke magnetiske tap for forskjellige prøver av en batch av elektrisk stålkvalitet 2212 ga følgende resultater: 1,21; 1,17; 1,18; 1,13; 1,19; 1,14; 1,20 og 1,18 W/kg. Forutsatt at det ikke er noen systematisk feil og at den tilfeldige feilen er normalfordelt, er det nødvendig å bestemme konfidensintervallet ved konfidenssannsynlighetsverdier på 0,9 og 0,95. For å løse problemet, bruk Laplace-formelen og Studentfordelingen.

Ved å bruke formler (6.8) i (6.11) finner vi estimater av den aritmetiske middelverdien og standardavviket til måleresultatene. De er henholdsvis lik 1,18 og 0,0278 W/kg. Forutsatt at MSD-estimatet er lik selve avviket, finner vi:


Herfra, ved å bruke verdiene til Laplace-funksjonen gitt i tabellen i vedlegg 1, bestemmer vi detz s = 1,65. For P = 0,95 koeffisient z s =1,96. Konfidensintervallene tilsvarende P = 0,9 og 0,95 er 1,18 ± 0,016 og 1,18 ± 0,019 W/kg.

I tilfelle hvor det ikke er grunn til å tro at standardavviket og dets estimat er like, bestemmes konfidensintervallet basert på Studentfordelingen:

Fra tabellen i vedlegg 1 finner vi det t 0,9 = 1,9 og t 0,95 = 2,37. Derfor er konfidensintervallene henholdsvis 1,18±0,019 og 1,18±0,023 W/kg.

Kontrollspørsmål.

1. Under hvilke forhold kan målefeil betraktes som en tilfeldig variabel?

2. List opp egenskapene til integral- og dtil en tilfeldig variabel.

3. Nevn de numeriske parameterne til distribusjonslovene.

4. Hvordan kan distribusjonssentralen settes?

5. Hva er distribusjonsmomenter? Hvem av dem har funnet anvendelse i metrologi?

6. Nevn hovedklassene av distribusjoner som brukes i metrologi.

7. Karakteriser fordelingene som inngår i klassen av trapesformede fordelinger.

8. Hva er eksponentialfordelinger? Hva er deres egenskaper og egenskaper?

9. Hva er normalfordeling? Hvorfor spiller det en spesiell rolle i metrologi?

10. Hva er Laplace-funksjonen og hva brukes den til?

11. Hvordan beskrives familien av studentfordelinger og hvor brukes den?

12. Hvilke punktanslag av distribusjonslover kjenner du til? Hva er kravene til dem?

13. Hva er et konfidensintervall? Hvilke måter å gjøre det på kjenner du?

Der, med en eller annen sannsynlighet, er den generelle parameteren lokalisert. Sannsynligheter anerkjent som tilstrekkelige for en sikker vurdering av generelle parametere basert på utvalgsindikatorer kalles tillitsfulle.

Konseptet med tillitssannsynligheter følger av prinsippet om at usannsynlige hendelser anses som praktisk talt umulige, og hendelser hvis sannsynlighet er nær én anses som nesten sikre. Vanligvis brukes sannsynligheter P 1 = 0,95, P 2 = 0,99, P 3 = 0,999 som konfidenssannsynligheter. Visse sannsynlighetsverdier samsvarer betydningsnivåer, som vi mener forskjellen α = 1-Р. En sannsynlighet på 0,95 tilsvarer et signifikansnivå på α 1 = 0,05 (5%), en sannsynlighet på 0,99 - α 2 = 0,01 (1%), en sannsynlighet på 0,999 - α 3 = 0,001 (0,1%).

Dette betyr at ved vurdering av generelle parametere ved bruk av utvalgsindikatorer er det en risiko for å gjøre feil i det første tilfellet en gang hver 20. test, dvs. i 5 % av tilfellene; i den andre - 1 gang per 100 tester, dvs. i 1 % av tilfellene; i den tredje - 1 gang per 1000 tester, dvs. i 0,1 % av tilfellene. Dermed angir signifikansnivået sannsynligheten for å oppnå et tilfeldig avvik fra resultatene etablert med en viss sannsynlighet. Sannsynlighetene akseptert som konfidens bestemmer konfidensintervallet mellom dem. De kan brukes til å basere en vurdering av en bestemt verdi og hvilke grenser den kan ligge innenfor ved ulike sannsynligheter.

For ulike sannsynligheter vil konfidensintervallene være som følger:

P 1 = 0,95 intervall - 1,96σ til + 1,96σ (fig. 5)

P 2 = 0,99 intervall - 2,58σ til + 2,58σ

P 3 = 0,999 intervall - 3,03σ til + 3,03σ

Følgende verdier av normaliserte avvik tilsvarer konfidenssannsynlighetene:

Sannsynlighet P 1 = 0,95 tilsvarer t 1 = 1,96σ

Sannsynlighet P 2 = 0,99 tilsvarer t 2 = 2,58σ

Sannsynlighet P 3 = 0,999 tilsvarer t 3 = 3,03σ

Valget av en eller annen tillitsterskel er basert på viktigheten av arrangementet. Signifikansnivået i dette tilfellet er sannsynligheten som er besluttet å bli neglisjert i en gitt studie eller et gitt fenomen.

Gjennomsnittlig feil (m), eller representativitetsfeil.

Prøvekarakteristikker faller som regel ikke sammen i absolutt verdi med de tilsvarende generelle parameterne. Mengden avvik for en prøveindikator fra dens generelle parameter kalles en statistisk feil, eller representativitetsfeil. Statistiske feil er bare iboende i utvalgsegenskaper; de oppstår i prosessen med å velge et alternativ fra den generelle befolkningen.


Gjennomsnittsfeilen beregnes ved hjelp av formelen:

hvor σ er standardavviket,

n - antall målinger (prøvestørrelse).

Uttrykt i samme enheter som .

Størrelsen på den gjennomsnittlige feilen er omvendt proporsjonal med størrelsen på utvalgspopulasjonen. Jo større utvalgsstørrelsen er, desto mindre er gjennomsnittsfeilen, og derfor er avviket mellom egenskapsverdiene i utvalget og generelle populasjoner mindre.

Den gjennomsnittlige prøvetakingsfeilen kan brukes til å estimere det generelle gjennomsnittet i henhold til loven om normalfordeling. Dermed er 68,3 % av alle aritmetiske utvalgsmidler innenfor ±1, 95,5 % av alle utvalgsgjennomsnitt er innenfor ±2, og 99,7 % av alle utvalgsgjennomsnitt er innenfor ±3.

Estimeringsnøyaktighet, konfidensnivå (pålitelighet)

Konfidensintervall

Ved prøvetaking av et lite volum bør intervallestimater brukes pga dette unngår grove feil, i motsetning til punktanslag.

Intervall er et estimat som bestemmes av to tall - endene av intervallet som dekker parameteren som estimeres. Intervallestimater lar oss fastslå nøyaktigheten og påliteligheten til estimater.

La den statistiske karakteristikken * funnet fra prøvedataene tjene som et estimat av den ukjente parameteren. Vi vil betrakte det som et konstant tall (kanskje en tilfeldig variabel). Det er klart at * jo mer nøyaktig bestemmer parameteren b, jo mindre er den absolutte verdien av forskjellen | - * |. Med andre ord, hvis >0 og | - * |< , то чем меньше, тем оценка точнее. Таким образом, положительное число характеризует точность оценки.

Statistiske metoder lar oss imidlertid ikke kategorisk slå fast at estimatet * tilfredsstiller ulikheten | - *|<, можно лишь говорить о вероятности, с которой это неравенство осуществляется.

Reliabiliteten (konfidenssannsynligheten) til et estimat med * er sannsynligheten for at ulikheten er realisert | - *|<. Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

La sannsynligheten for at | - *|<, равна т.е.

Erstatter ulikhet | - *|< равносильным ему двойным неравенством -<| - *|<, или *- <<*+, имеем

R(*-< <*+)=.

Et konfidensintervall (*-, *+) kalles et konfidensintervall som dekker en ukjent parameter med en gitt pålitelighet.

Konfidensintervaller for å estimere den matematiske forventningen til en normalfordeling gitt en kjent fordeling.

Et intervallestimat med påliteligheten til den matematiske forventningen a til en normalfordelt kvantitativ karakteristikk X basert på utvalgsgjennomsnittet x med et kjent standardavvik for populasjonen er et konfidensintervall

x - t(/n^?)< a < х + t(/n^?),

der t(/n^?)= er nøyaktigheten til estimatet, n er utvalgsstørrelsen, t er verdien av argumentet til Laplace-funksjonen Ф(t), der Ф(t)=/2.

Fra likheten t(/n^?)= kan følgende konklusjoner trekkes:

1. når utvalgsstørrelsen n øker, reduseres antallet og derfor øker nøyaktigheten av estimatet;

2. en økning i påliteligheten til estimatet = 2Ф(t) fører til en økning i t (Ф(t) er en økende funksjon), og derfor til en økning; med andre ord, en økning i påliteligheten til et klassisk estimat innebærer en reduksjon i nøyaktigheten.

Eksempel. Den stokastiske variabelen X har en normalfordeling med kjent standardavvik =3. Finn konfidensintervaller for å estimere den ukjente matematiske forventningen a basert på utvalgsmidler x, hvis utvalgsstørrelsen er n = 36 og påliteligheten til estimatet er gitt = 0,95.

Løsning. La oss finne t. Fra relasjonen 2Ф(t) = 0,95 får vi Ф(t) = 0,475. Fra tabellen finner vi t=1,96.

La oss finne nøyaktigheten av estimatet:

nøyaktighet konfidensintervallmåling

T(/n^?)= (1.96.3)/ /36 = 0.98.

Konfidensintervallet er: (x - 0,98; x + 0,98). For eksempel, hvis x = 4.1, har konfidensintervallet følgende konfidensgrenser:

x - 0,98 = 4,1 - 0,98 = 3,12; x + 0,98 = 4,1 + 0,98 = 5,08.

Dermed tilfredsstiller verdiene til den ukjente parameteren a, i samsvar med prøvedataene, ulikhet 3.12< а < 5,08. Подчеркнем, что было бы ошибочным написать Р (3,12 < а < 5,08) = 0,95. Действительно, так как а - постоянная величина, то либо она заключена в найденном интервале (тогда событие 3,12 < а < 5,08 достоверно и его вероятность равна единице), либо в нем не заключена (в этом случае событие 3,12 < а < 5,08 невозможно и его вероятность равна нулю). Другими словами, доверительную вероятность не следует связывать с оцениваемым параметром; она связана лишь с границами доверительного интервала, которые, как уже было указано, изменяются от выборки к выборке.

La oss forklare betydningen av en gitt pålitelighet. Reliabilitet = 0,95 indikerer at hvis et tilstrekkelig stort antall prøver tas, så bestemmer 95 % av dem konfidensintervallene som parameteren faktisk er inneholdt i; bare i 5 % av tilfellene kan det gå utover konfidensintervallet.

Hvis det er nødvendig å estimere den matematiske forventningen med en forhåndsbestemt nøyaktighet og pålitelighet, er minimumsprøvestørrelsen som vil sikre denne nøyaktigheten funnet ved hjelp av formelen

Konfidensintervaller for å estimere den matematiske forventningen til en normalfordeling med en ukjent

Et intervallestimat med påliteligheten til den matematiske forventningen a til en normalfordelt kvantitativ karakteristikk X basert på prøvegjennomsnittet x med et ukjent standardavvik for den generelle populasjonen er et konfidensintervall

x - t()(s/n^?)< a < х + t()(s/n^?),

der s er det "korrigerte" prøvestandardavviket, er t() funnet fra tabellen for gitt og n.

Eksempel. Den kvantitative karakteristikken X for populasjonen er normalfordelt. Basert på en prøvestørrelse på n=16 ble prøvegjennomsnittet x = 20,2 og det «korrigerte» standardavviket s = 0,8 funnet. Estimer den ukjente matematiske forventningen ved å bruke et konfidensintervall med en pålitelighet på 0,95.

Løsning. La oss finne t(). Ved å bruke tabellen, ved = 0,95 og n=16 finner vi t()=2,13.

La oss finne konfidensgrensene:

x - t() (s/n^?) = 20,2 - 2,13 *. 0,8/16^? = 19,774

x + t()(s/n^?) = 20,2 + 2,13 * 0,8/16^? = 20,626

Så, med en reliabilitet på 0,95, er den ukjente parameteren a inneholdt i et konfidensintervall på 19,774< а < 20,626

Estimering av den sanne verdien av den målte mengden

La det gjøres n uavhengige målinger med like presisjon av en fysisk mengde, hvis sanne verdi er ukjent.

Vi vil vurdere resultatene av individuelle målinger som tilfeldige variabler Хl, Х2,...Хn. Disse mengdene er uavhengige (målingene er uavhengige). De har den samme matematiske forventningen a (den sanne verdien av den målte mengden), de samme variansene ^2 (målingene er like nøyaktige) og er fordelt normalt (denne antagelsen bekreftes av erfaring).

Dermed er alle forutsetningene som ble gjort for å utlede konfidensintervallene oppfylt, og derfor står vi fritt til å bruke formlene. Med andre ord kan den sanne verdien av den målte verdien estimeres fra det aritmetiske gjennomsnittet av resultatene av individuelle målinger ved bruk av konfidensintervaller.

Eksempel. Basert på data fra ni uavhengige like-presisjonsmålinger av en fysisk mengde, ble det aritmetiske gjennomsnittet av resultatene av individuelle målinger funnet å være x = 42,319 og det "korrigerte" standardavviket s = 5,0. Det kreves å estimere den sanne verdien av den målte verdien med pålitelighet = 0,95.

Løsning. Den sanne verdien av den målte størrelsen er lik dens matematiske forventning. Derfor kommer problemet ned til å estimere den matematiske forventningen (gitt en ukjent) ved å bruke et konfidensintervall som dekker a med en gitt reliabilitet = 0,95.

x - t()(s/n^?)< a < х + t()(s/n^?)

Ved å bruke tabellen, ved å bruke y = 0,95 og l = 9 finner vi

La oss finne nøyaktigheten av estimatet:

t())(s/n^?) = 2,31 * 5/9^?=3,85

La oss finne konfidensgrensene:

x - t() (s/n^?) = 42,319 - 3,85 = 38,469;

x + t()(s/n^?) = 42,319 +3,85 = 46,169.

Så, med en pålitelighet på 0,95, ligger den sanne verdien av den målte verdien i konfidensintervallet på 38,469< а < 46,169.

Konfidensintervaller for å estimere standardavviket til en normalfordeling.

La den kvantitative karakteristikken X for den generelle befolkningen være normalfordelt. Det er nødvendig å estimere det ukjente generelle standardavviket fra det "korrigerte" prøvestandardavviket. For å gjøre dette bruker vi intervallestimering.

Et intervallestimat (med pålitelighet) av standardavviket o for en normalfordelt kvantitativ karakteristikk X basert på det "korrigerte" prøvestandardavviket s er konfidensintervallet

s (1 -- q)< < s (1 + q) (при q < 1),

0 < < s (1 + q) (при q > 1),

hvor q er funnet fra tabellen for gitt n n.

Eksempel 1. Kvantitativ karakteristikk X for den generelle befolkningen er normalfordelt. Basert på en prøvestørrelse på n = 25 ble det funnet et "korrigert" standardavvik på s = 0,8. Finn et konfidensintervall som dekker det generelle standardavviket med en pålitelighet på 0,95.

Løsning. Ved å bruke tabellen med data = 0,95 og n = 25, finner vi q = 0,32.

Det nødvendige konfidensintervallet s (1 -- q)< < s (1 + q) таков:

0,8(1-- 0,32) < < 0,8(1+0,32), или 0,544 < < 1,056.

Eksempel 2. Kvantitativ karakteristikk X for den generelle befolkningen er normalfordelt. Basert på en prøvestørrelse på n=10 ble det funnet et «korrigert» standardavvik på s = 0,16. Finn et konfidensintervall som dekker det generelle standardavviket med en pålitelighet på 0,999.

Løsning. Ved å bruke vedleggstabellen, basert på data = 0,999 og n=10, finner vi 17= 1,80 (q > 1). Det nødvendige konfidensintervallet er:

0 < < 0,16(1 + 1,80), или 0 < < 0,448.

Karakter målenøyaktighet

I feilteori er det vanlig å karakterisere målenøyaktighet (instrumentnøyaktighet) ved å bruke standardavviket for tilfeldige målefeil. For evaluering brukes det "korrigerte" standardavviket s. Siden måleresultatene vanligvis er gjensidig uavhengige, har samme matematiske forventning (den sanne verdien av den målte verdien) og samme spredning (i tilfelle av målinger med like presisjon), er teorien skissert i forrige avsnitt anvendelig for å vurdere nøyaktighet av målinger.

Eksempel. Basert på 15 like presisjonsmålinger ble det funnet et "korrigert" standardavvik på s = 0,12. Finn målenøyaktigheten med en pålitelighet på 0,99.

Løsning. Målenøyaktigheten er preget av standardavviket til tilfeldige feil, så problemet kommer ned til å finne konfidensintervallet s (1 -- q)< < s (1 + q) , покрывающего с заданной надежностью 0,99

Ved å bruke vedleggstabellen for = 0,99 og n = 15 finner vi q = 0,73.

Det nødvendige konfidensintervallet

0,12(1-- 0,73) < < 0,12(1+0,73), или 0.03 < < 0,21.

Sannsynlighetsestimering (binomial fordeling) fra relativ frekvens

Et intervallestimat (med pålitelighet) av den ukjente sannsynligheten p for en binomialfordeling ved relativ frekvens w er konfidensintervallet (med omtrentlige ender p1 og p2)

p1< p < p2,

hvor n er det totale antallet tester; m er antall forekomster av hendelsen; w - relativ frekvens lik forholdet m/n; t er verdien av argumentet til Laplace-funksjonen, hvor Ф(t) = /2.

Kommentar. For store verdier av n (i størrelsesorden hundrevis) kan tas som omtrentlige grenser for konfidensintervallet

Ofte må takstmannen analysere eiendomsmarkedet i det segmentet eiendommen som vurderes befinner seg i. Hvis markedet er utviklet, kan det være vanskelig å analysere hele settet med presenterte objekter, så et utvalg objekter brukes til analyse. Denne prøven viser seg ikke alltid å være homogen; noen ganger er det nødvendig å fjerne ekstreme punkter - for høye eller for lave markedstilbud. Til dette formålet brukes den konfidensintervall. Hensikten med denne studien er å gjennomføre en komparativ analyse av to metoder for å beregne konfidensintervallet og velge det optimale beregningsalternativet når man arbeider med ulike prøver i estimatica.pro-systemet.

Konfidensintervall er et intervall av attributtverdier beregnet på grunnlag av et utvalg, som med kjent sannsynlighet inneholder den estimerte parameteren til den generelle befolkningen.

Poenget med å beregne et konfidensintervall er å konstruere et slikt intervall basert på utvalgsdata slik at det med en gitt sannsynlighet kan oppgis at verdien av den estimerte parameteren er i dette intervallet. Med andre ord inneholder konfidensintervallet den ukjente verdien av den estimerte verdien med en viss sannsynlighet. Jo bredere intervall, jo høyere unøyaktighet.

Det finnes ulike metoder for å bestemme konfidensintervallet. I denne artikkelen vil vi se på 2 metoder:

  • gjennom median og standardavvik;
  • gjennom kritisk verdi av t-statistikk (Students koeffisient).

Stadier av komparativ analyse av forskjellige metoder for å beregne CI:

1. danne et dataeksempel;

2. vi behandler det ved hjelp av statistiske metoder: vi beregner gjennomsnittsverdien, medianen, variansen osv.;

3. beregne konfidensintervallet på to måter;

4. analysere de rensede prøvene og de resulterende konfidensintervallene.

Trinn 1. Dataprøvetaking

Prøven ble dannet ved hjelp av estimatica.pro-systemet. Utvalget inkluderte 91 tilbud om salg av 1-roms leiligheter i den tredje prissonen med "Khrusjtsjov" -typen.

Tabell 1. Startprøve

Pris 1 kvm, enhet

Figur 1. Opprinnelig prøve



Trinn 2. Behandling av den første prøven

Behandling av et utvalg ved hjelp av statistiske metoder krever beregning av følgende verdier:

1. Aritmetisk gjennomsnitt

2. Median er et tall som karakteriserer prøven: nøyaktig halvparten av prøveelementene er større enn medianen, den andre halvparten er mindre enn medianen

(for en prøve med et oddetall verdier)

3. Område - forskjellen mellom maksimums- og minimumsverdiene i prøven

4. Varians - brukes til å mer nøyaktig estimere variasjonen av data

5. Prøvestandardavvik (heretter - SD) er den vanligste indikatoren på spredningen av justeringsverdier rundt det aritmetiske gjennomsnittet.

6. Variasjonskoeffisient - reflekterer graden av spredning av justeringsverdier

7. oscillasjonskoeffisient - reflekterer den relative fluktuasjonen av ekstreme prisverdier i utvalget rundt gjennomsnittet

Tabell 2. Statistiske indikatorer for det opprinnelige utvalget

Variasjonskoeffisienten, som karakteriserer homogeniteten til dataene, er 12,29 %, men oscillasjonskoeffisienten er for høy. Dermed kan vi si at den opprinnelige prøven ikke er homogen, så la oss gå videre til å beregne konfidensintervallet.

Trinn 3. Konfidensintervallberegning

Metode 1. Beregning med median og standardavvik.

Konfidensintervallet bestemmes som følger: minimumsverdi - standardavviket trekkes fra medianen; maksimal verdi - standardavvik legges til medianen.

Dermed er konfidensintervallet (47179 CU; 60689 CU)

Ris. 2. Verdier som faller innenfor konfidensintervall 1.



Metode 2. Konstruere et konfidensintervall ved å bruke den kritiske verdien av t-statistikk (studentkoeffisient)

S.V. Gribovsky beskriver i sin bok "Mathematical Methods for Estimating Property Value" en metode for å beregne konfidensintervallet gjennom studentkoeffisienten. Ved beregning med denne metoden må estimatoren selv sette signifikansnivået ∝, som bestemmer sannsynligheten for at konfidensintervallet blir konstruert. Vanligvis brukes signifikansnivåer på 0,1; 0,05 og 0,01. De tilsvarer konfidenssannsynligheter på 0,9; 0,95 og 0,99. Med denne metoden antas de sanne verdiene til den matematiske forventningen og variansen å være praktisk talt ukjent (noe som nesten alltid er sant når man løser praktiske estimeringsproblemer).

Konfidensintervallformel:

n - prøvestørrelse;

Den kritiske verdien av t-statistikk (elevfordeling) med et signifikansnivå ∝, antall frihetsgrader n-1, som bestemmes fra spesielle statistiske tabeller eller ved bruk av MS Excel (→"Statistical"→ STUDIST);

∝ - signifikansnivå, ta ∝=0,01.

Ris. 2. Verdier som faller innenfor konfidensintervall 2.

Trinn 4. Analyse av ulike metoder for beregning av konfidensintervall

To metoder for å beregne konfidensintervallet - gjennom medianen og studentens koeffisient - førte til forskjellige verdier av intervallene. Følgelig fikk vi to forskjellige rensede prøver.

Tabell 3. Statistikk for tre utvalg.

Indeks

Opprinnelig prøve

1 alternativ

Alternativ 2

Gjennomsnittlig verdi

Spredning

Coef. variasjoner

Coef. svingninger

Antall pensjonerte objekter, stk.

Basert på de utførte beregningene kan vi si at konfidensintervallverdiene oppnådd ved forskjellige metoder krysser hverandre, slik at du kan bruke hvilken som helst av beregningsmetodene etter takstmannens skjønn.

Vi tror imidlertid at når du arbeider i estimatica.pro-systemet, er det tilrådelig å velge en metode for å beregne konfidensintervallet avhengig av graden av markedsutvikling:

  • hvis markedet er uutviklet, bruk beregningsmetoden ved å bruke median og standardavvik, siden antallet pensjonerte objekter i dette tilfellet er lite;
  • hvis markedet er utviklet, bruk beregningen gjennom den kritiske verdien av t-statistikk (Students koeffisient), siden det er mulig å danne et stort innledende utvalg.

I utarbeidelsen av artikkelen ble følgende brukt:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematiske metoder for å vurdere eiendomsverdi. Moskva, 2014

2. Systemdata estimatica.pro

Analysen av tilfeldige feil er basert på teorien om tilfeldige feil, som gjør det mulig med en viss garanti å beregne den faktiske verdien av den målte verdien og vurdere mulige feil.

Teorien om tilfeldige feil er basert på følgende forutsetninger:

med et stort antall målinger forekommer tilfeldige feil av samme størrelse, men med forskjellige fortegn, like ofte;

store feil er mindre vanlige enn små (sannsynligheten for en feil reduseres etter hvert som dens størrelse øker);

med et uendelig stort antall målinger er den sanne verdien av den målte mengden lik det aritmetiske gjennomsnittet av alle måleresultater;

utseendet til et eller annet måleresultat som en tilfeldig hendelse er beskrevet av normalfordelingsloven.

I praksis skilles det mellom et generelt og et prøvesett av målinger.

Under befolkningen innebære hele settet med mulige måleverdier eller mulige feilverdier
.

For utvalgspopulasjonen antall målinger begrenset og strengt bestemt i hvert enkelt tilfelle. De tror at hvis
, deretter gjennomsnittsverdien av dette settet med målinger er nær nok til sin sanne verdi.

1. Intervallestimering ved bruk av konfidenssannsynlighet

For et stort utvalg og en normalfordeling er den generelle evalueringskarakteristikken for en måling spredning
og variasjonskoeffisient :

;
. (1.1)

Dispersjon karakteriserer homogeniteten til målingen. Den høyere
, jo større spredning av målinger.

Variasjonskoeffisienten karakteriserer variabilitet. Den høyere , jo større variasjon av målinger i forhold til gjennomsnittsverdiene.

For å vurdere påliteligheten til måleresultater introduseres begrepene konfidensintervall og konfidenssannsynlighet.

Klarert kalt intervall verdier , som den sanne verdien faller inn i målt mengde med en gitt sannsynlighet.

Tillitssannsynlighet (reliabilitet) av en måling er sannsynligheten for at den sanne verdien av den målte verdien faller innenfor et gitt konfidensintervall, dvs. til sonen
. Denne verdien bestemmes i brøkdeler av en enhet eller i prosent

,

Hvor
- Laplace integral funksjon ( tabell 1.1 )

Laplace-integralfunksjonen er definert av følgende uttrykk:

.

Argumentet til denne funksjonen er garantifaktor :

Tabell 1.1

Laplace integrert funksjon

Hvis det på grunnlag av visse data etableres en konfidenssannsynlighet (det blir ofte tatt lik
), så er den satt nøyaktighet av målinger (konfidensintervall
) basert på forholdet

.

Halve konfidensintervallet er

, (1.3)

Hvor
- argument for Laplace-funksjonen, if
(tabell 1.1 );

- Studentfunksjoner, if
(tabell 1.2 ).

Konfidensintervallet karakteriserer således nøyaktigheten av målingen av en gitt prøve, og konfidenssannsynligheten karakteriserer reliabiliteten til målingen.

Eksempel

Ferdig
målinger av styrken til veibanen til en motorveistrekning med en gjennomsnittlig elastisitetsmodul
og den beregnede verdien av standardavviket
.

Nødvendig bestemme den nødvendige nøyaktigheten målinger for ulike konfidensnivåer
, tar verdiene Av tabell 1.1 .

I dette tilfellet, følgelig |

Følgelig, for et gitt middel og målemetode, øker konfidensintervallet med ca ganger hvis du øker bare på
.