Konstruirajte interval pouzdanosti sa pouzdanošću od 0,95. Intervali povjerenja: teorija i problemi

Interval povjerenja za matematičko očekivanje - ovo je takav interval izračunat iz podataka koji sa poznatom vjerovatnoćom sadrži matematičko očekivanje stanovništva. Prirodna procjena za matematičko očekivanje je aritmetička sredina njegovih promatranih vrijednosti. Stoga ćemo dalje tokom lekcije koristiti pojmove "prosjek", "prosječna vrijednost". U problemima izračunavanja intervala pouzdanosti, odgovor koji se najčešće traži je "Interval pouzdanosti prosječnog broja [vrijednosti u određenom problemu] je od [manje vrijednosti] do [ veća vrijednost]". Koristeći interval pouzdanosti, možete procijeniti ne samo prosječne vrijednosti, već i udio jedne ili druge karakteristike opće populacije. Prosječne vrijednosti, varijansa, standardna devijacija a greške kroz koje ćemo doći do novih definicija i formula se analiziraju u lekciji Karakteristike uzorka i populacije .

Tačkaste i intervalne procjene srednje vrijednosti

Ako je prosječna vrijednost opšte populacije procijenjena brojem (bodom), onda je za procjenu nepoznato srednja veličina opšte populacije uzima se specifična srednja vrednost koja se izračunava na osnovu uzorka posmatranja. U ovom slučaju, vrijednost uzorka srednje vrijednosti - slučajne varijable - ne poklapa se sa srednjom vrijednošću opće populacije. Stoga je prilikom navođenja srednje vrijednosti uzorka potrebno istovremeno navesti i grešku uzorka. Standardna greška se koristi kao mjera greške uzorkovanja, koja se izražava u istim jedinicama kao i srednja vrijednost. Stoga se često koristi sljedeća notacija: .

Ako se traži da se procjena srednje vrijednosti poveže sa određenom vjerovatnoćom, tada se parametar opšte populacije od interesa mora procijeniti ne jednim brojem, već intervalom. Interval pouzdanosti je interval u kojem, sa određenom vjerovatnoćom, P nalazi se vrijednost procijenjenog indikatora opšte populacije. Interval povjerenja u kojem s vjerovatnoćom P = 1 - α je slučajna varijabla, izračunava se na sljedeći način:

α = 1 - P, koji se može naći u dodatku gotovo svake knjige o statistici.

U praksi, populacijska srednja vrijednost i varijansa nisu poznate, pa se varijansa populacije zamjenjuje varijansom uzorka, a populacijska srednja vrijednost uzorkom. Stoga se interval pouzdanosti u većini slučajeva izračunava na sljedeći način:

Formula intervala pouzdanosti može se koristiti za procjenu srednje vrijednosti populacije ako

poznata je standardna devijacija opšte populacije;
ili standardna devijacija populacije nije poznata, ali je veličina uzorka veća od 30.

Srednja vrijednost uzorka je nepristrasna procjena srednje vrijednosti populacije. Zauzvrat, varijansa uzorka nije nepristrasna procjena varijanse populacije . Da bi se dobila nepristrasna procjena varijanse populacije u formuli varijanse uzorka, veličina uzorka je n treba zamijeniti sa n-1.

Primjer 1 Od 100 nasumično odabranih kafića u određenom gradu prikupljaju se podaci da je prosječan broj zaposlenih u njima 10,5 sa standardnom devijacijom od 4,6. Odredite interval povjerenja od 95% broja zaposlenih u kafiću.

gdje je kritična vrijednost standardne normalne distribucije za nivo značajnosti α = 0,05 .

Tako je interval povjerenja od 95% za prosječan broj zaposlenih u kafiću bio između 9,6 i 11,4.

Primjer 2 Za slučajni uzorak iz opće populacije od 64 opservacije, izračunate su sljedeće ukupne vrijednosti:

zbir vrijednosti u zapažanjima,

zbir kvadrata odstupanja vrijednosti od srednje vrijednosti .

Izračunajte 95% interval pouzdanosti za očekivanu vrijednost.

izračunajte standardnu devijaciju:

izračunaj prosječnu vrijednost:

Zamijenite vrijednosti u izrazu za interval povjerenja:

gdje je kritična vrijednost standardne normalne distribucije za nivo značajnosti α = 0,05 .

Dobijamo:

Tako se interval pouzdanosti od 95% za matematičko očekivanje ovog uzorka kretao od 7,484 do 11,266.

Primjer 3 Za slučajni uzorak iz opšte populacije od 100 opservacija, izračunata je srednja vrijednost od 15,2 i standardna devijacija od 3,2. Izračunajte interval pouzdanosti od 95% za očekivanu vrijednost, a zatim 99% interval pouzdanosti. Ako snaga uzorka i njena varijacija ostanu iste, ali se faktor pouzdanosti povećava, hoće li se interval povjerenja suziti ili proširiti?

Ove vrijednosti zamjenjujemo u izraz za interval povjerenja:

gdje je kritična vrijednost standardne normalne distribucije za nivo značajnosti α = 0,05 .

Dobijamo:

Tako je interval pouzdanosti od 95% za prosjek ovog uzorka bio od 14,57 do 15,82.

Opet, zamjenjujemo ove vrijednosti u izraz za interval povjerenja:

gdje je kritična vrijednost standardne normalne distribucije za nivo značajnosti α = 0,01 .

Dobijamo:

Tako je interval pouzdanosti od 99% za prosjek ovog uzorka bio od 14,37 do 16,02.

Kao što vidite, kako se faktor pouzdanosti povećava, tako se povećava i kritična vrijednost standardne normalne distribucije, pa se stoga početna i krajnja točka intervala nalaze dalje od srednje vrijednosti, a time i interval povjerenja za matematičko očekivanje povećava.

Tačkaste i intervalne procjene specifične težine

Udio neke karakteristike uzorka može se tumačiti kao bodovna procjena specifična gravitacija str ista osobina u opštoj populaciji. Ako ovu vrijednost treba povezati s vjerovatnoćom, tada treba izračunati interval pouzdanosti specifične težine str karakteristika u opštoj populaciji sa vjerovatnoćom P = 1 - α :

Primjer 4 U određenom gradu postoje dva kandidata A i B kandidovanje za gradonačelnika. Nasumično je anketirano 200 stanovnika grada, od kojih je 46% odgovorilo da bi glasalo za kandidata A, 26% - za kandidata B a 28% ne zna za koga će glasati. Odredite interval povjerenja od 95% za udio stanovnika grada koji podržavaju kandidata A.

Često procjenitelj mora analizirati tržište nekretnina segmenta u kojem se nalazi objekt procjene. Ako je tržište razvijeno, može biti teško analizirati cijeli skup prikazanih objekata, stoga se za analizu koristi uzorak objekata. Ovaj uzorak nije uvijek homogen, ponekad ga je potrebno očistiti od krajnosti – previsoke ili preniske tržišne ponude. U tu svrhu se primjenjuje interval povjerenja. Target ovu studiju- izvršiti uporednu analizu dvije metode za izračunavanje intervala povjerenja i izabrati najbolja opcija proračun pri radu sa različitim uzorcima u sistemu estimatica.pro.

Interval pouzdanosti - izračunava se na osnovu uzorka, intervala vrijednosti karakteristike, koja sa poznatom vjerovatnoćom sadrži procijenjeni parametar opće populacije.

Smisao izračunavanja intervala pouzdanosti je da se takav interval izgradi na osnovu podataka uzorka tako da se sa datom vjerovatnoćom može tvrditi da je vrijednost procijenjenog parametra u ovom intervalu. Drugim riječima, interval povjerenja sa određenom vjerovatnoćom sadrži nepoznata vrijednost procijenjena vrijednost. Što je interval širi, to je veća nepreciznost.

Postoje različite metode za određivanje intervala pouzdanosti. U ovom članku ćemo razmotriti 2 načina:

kroz medijanu i standardnu devijaciju;
kroz kritičnu vrijednost t-statistike (Studentov koeficijent).

Faze komparativna analiza Različiti putevi CI izračun:

1. formirati uzorak podataka;

2. obraditi ga statističke metode: izračunati srednju vrijednost, medijan, varijansu, itd.;

3. interval pouzdanosti izračunavamo na dva načina;

4. Analizirati očišćene uzorke i dobijene intervale pouzdanosti.

Faza 1. Uzorkovanje podataka

Uzorak je formiran pomoću sistema estimatica.pro. Uzorak je uključivao 91 ponudu za prodaju jednosobnih stanova u 3. zoni cijena sa tipom planiranja "Hruščov".

Tabela 1. Početni uzorak

	Cijena 1 m2 k.u.

Fig.1. Početni uzorak

Faza 2. Obrada početnog uzorka

Obrada uzorka statističkim metodama zahtijeva izračunavanje sljedećih vrijednosti:

1. Aritmetička sredina

2. Medijan - broj koji karakteriše uzorak: tačno polovina elemenata uzorka je veća od medijane, druga polovina je manja od medijane

(za uzorak sa neparnim brojem vrijednosti)

3. Raspon - razlika između maksimalne i minimalne vrijednosti u uzorku

4. Varijanca - koristi se za precizniju procjenu varijacije u podacima

5. Standardna devijacija za uzorak (u daljem tekstu RMS) je najčešći indikator disperzije vrednosti podešavanja oko aritmetičke sredine.

6. Koeficijent varijacije - odražava stepen disperzije vrednosti podešavanja

7. koeficijent oscilacije - odražava relativnu fluktuaciju ekstremne vrednosti cijene u uzorku oko prosjeka

Tabela 2. Statistički pokazatelji originalni uzorak

Koeficijent varijacije, koji karakteriše homogenost podataka, iznosi 12,29%, ali je koeficijent oscilacije prevelik. Dakle, možemo konstatovati da originalni uzorak nije homogen, pa pređimo na izračunavanje intervala pouzdanosti.

Faza 3. Proračun intervala povjerenja

Metoda 1. Proračun kroz medijanu i standardnu devijaciju.

Interval pouzdanosti se određuje na sljedeći način: minimalna vrijednost - standardna devijacija se oduzima od medijane; maksimalna vrijednost- SSE se dodaje medijani.

Dakle, interval povjerenja (47179 CU; 60689 CU)

Rice. 2. Vrijednosti unutar intervala povjerenja 1.

Metoda 2. Izgradnja intervala povjerenja kroz kritičnu vrijednost t-statistike (Studentov koeficijent)

S.V. Gribovski u knjizi " Matematičke metode procjena vrijednosti imovine” opisuje kako izračunati interval povjerenja kroz Studentov koeficijent. Prilikom izračunavanja ovom metodom, sam procjenitelj mora postaviti nivo značajnosti ∝, koji određuje vjerovatnoću sa kojom će se izgraditi interval povjerenja. Obično se koriste nivoi značajnosti od 0,1; 0,05 i 0,01. Oni odgovaraju vjerovatnoći pouzdanosti od 0,9; 0,95 i 0,99. Ovom metodom smatra se da su prave vrijednosti matematičkog očekivanja i varijanse praktički nepoznate (što je gotovo uvijek tačno kada se rješavaju praktični problemi evaluacije).

Formula intervala povjerenja:

n - veličina uzorka;

Kritična vrijednost t-statistike (Studentove distribucije) sa nivoom značajnosti ∝, brojem stupnjeva slobode n-1, koji se utvrđuje posebnim statističkim tabelama ili korištenjem MS Excel-a (→„Statistički”→ STUDRASPOBR);

∝ - nivo značajnosti, uzimamo ∝=0,01.

Rice. 2. Vrijednosti unutar intervala povjerenja 2.

Korak 4. Analiza različitih načina izračunavanja intervala pouzdanosti

Dva načina za izračunavanje intervala povjerenja - kroz medijanu i Studentov koeficijent - dovela su do različite vrijednosti intervalima. Shodno tome, dobijena su dva različita pročišćena uzorka.

Tabela 3. Statistički pokazatelji za tri uzorka.

Indeks	Početni uzorak	1 opcija	Opcija 2
Zlo


Disperzija

Coef. varijacije
Coef. oscilacije
Broj penzionisanih objekata, kom.

Na osnovu izvršenih proračuna možemo reći da se vrijednosti intervala povjerenja dobivene različitim metodama sijeku, tako da možete koristiti bilo koju od metoda proračuna prema nahođenju procjenitelja.

Međutim, smatramo da je pri radu u sistemu estimatica.pro preporučljivo odabrati metodu za izračunavanje intervala povjerenja, ovisno o stepenu razvijenosti tržišta:

ako tržište nije razvijeno, primijeniti metodu obračuna kroz medijanu i standardnu devijaciju, jer je broj penzionisanih objekata u ovom slučaju mali;
ako je tržište razvijeno, proračun primijeniti kroz kritičnu vrijednost t-statistike (Studentov koeficijent), jer je moguće formirati veliki početni uzorak.

U pripremi članka korišteni su:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematičke metode za procjenu vrijednosti imovine. Moskva, 2014

2. Podaci iz sistema estimatica.pro

Neka je slučajna varijabla (može se govoriti o opštoj populaciji) raspoređena po normalnom zakonu, za koju je poznata varijansa D = 2 (> 0). Iz opće populacije (na skupu objekata od kojih je određena slučajna varijabla) pravi se uzorak veličine n. Uzorak x 1 , x 2 ,..., x n se smatra skupom od n nezavisnih slučajnih varijabli raspoređenih na isti način kao (pristup objašnjen gore u tekstu).

Prethodno su također razmatrane i dokazane sljedeće jednakosti:

Mx 1 = Mx 2 = ... = Mx n = M;

Dx 1 = Dx 2 = ... = Dx n = D;

Dovoljno je jednostavno dokazati (izostavljamo dokaz) da je slučajna varijabla u ovaj slučaj takođe distribuira u skladu sa uobičajenim zakonom.

Označimo nepoznatu vrijednost M sa a i izaberemo broj d > 0 prema datoj pouzdanosti tako da je zadovoljen sljedeći uvjet:

P(- a< d) = (1)

Pošto je slučajna varijabla distribuirana prema normalnom zakonu sa matematičkim očekivanjem M = M = a i varijansom D = D /n = 2 /n, dobijamo:

P(- a< d) =P(a - d < < a + d) =

Ostaje odabrati d tako da je jednakost

Za bilo koji, iz tabele se može pronaći takav broj t da je (t) = / 2. Ovaj broj t se ponekad naziva kvantil.

Sada iz jednakosti

definiraj vrijednost d:

Konačan rezultat dobijamo predstavljanjem formule (1) u obliku:

Značenje posljednje formule je sljedeće: uz pouzdanost, interval povjerenja

pokriva nepoznati parametar a = M populacije. Može se reći drugačije: tačka procene određuje vrednost parametra M sa tačnošću od d= t / i pouzdanošću.

Zadatak. Neka postoji opšta populacija sa nekom karakteristikom raspoređenom prema normalnom zakonu sa disperzijom jednakom 6,25. Napravljen je uzorak zapremine n = 27 i dobijena je prosječna vrijednost uzorka karakteristike = 12. Odrediti interval pouzdanosti koji pokriva nepoznato matematičko očekivanje proučavane karakteristike opće populacije sa pouzdanošću = 0,99.

Rješenje. Prvo, koristeći tablicu za Laplaceovu funkciju, nalazimo vrijednost t iz jednadžbe (t) \u003d / 2 \u003d 0,495. Na osnovu dobijene vrijednosti t = 2,58 određujemo tačnost procjene (ili pola dužine intervala povjerenja) d: d = 2,52,58 / 1,24. Odavde dobijamo željeni interval pouzdanosti: (10,76; 13,24).

statistička hipoteza generalna varijacija

Interval pouzdanosti za očekivanje normalne distribucije sa nepoznatom varijansom

Neka je slučajna varijabla distribuirana prema normalnom zakonu s nepoznatim matematičkim očekivanjem M, koje označavamo slovom a . Napravimo uzorak veličine n. Odredimo prosječan uzorak i ispravimo varijansa uzorka s 2 prema poznatim formulama.

Slučajna vrijednost

raspoređeno prema Studentovom zakonu sa n - 1 stepenom slobode.

Zadatak je pronaći takav broj t prema datoj pouzdanosti i broju stupnjeva slobode n - 1 tako da je jednakost

ili ekvivalentna jednakost

Ovdje je u zagradama napisan uslov da vrijednost nepoznatog parametra a pripada određenom intervalu, a to je interval povjerenja. Njegove granice zavise od pouzdanosti, kao i od parametara uzorkovanja i s.

Da bismo odredili vrijednost t po veličini, transformiramo jednakost (2) u oblik:

Sada, prema tabeli za slučajnu promenljivu t, raspoređenu prema Studentovom zakonu, prema verovatnoći 1 - i broju stepeni slobode n - 1, nalazimo t. Formula (3) daje odgovor na problem.

Zadatak. Na kontrolnim ispitivanjima 20 električnih lampi, prosječno trajanje njihovog rada bilo je 2000 sati sa prosječnim standardna devijacija(izračunato kao kvadratni korijen korigirane varijanse uzorka) jednako 11 sati. Poznato je da je trajanje rada lampe normalno raspoređeno slučajna varijabla. Odrediti sa pouzdanošću od 0,95 interval pouzdanosti za matematičko očekivanje ove slučajne varijable.

Rješenje. Vrijednost 1 - u ovom slučaju je jednaka 0,05. Prema Studentovoj tabeli raspodele, sa brojem stepeni slobode jednakim 19, nalazimo: t = 2,093. Izračunajmo sada tačnost procjene: 2,093121/ = 56,6. Odavde dobijamo željeni interval poverenja: (1943,4; 2056,6).

I drugi, sve su to procjene njihovih teoretskih parnjaka, do kojih bi se moglo doći da ne postoji uzorak, već opća populacija. Ali nažalost, opća populacija je vrlo skupa i često nedostupna.

Koncept intervalne procjene

Bilo koji evaluacija uzorka ima nešto raspršivanja, jer je slučajna varijabla ovisno o vrijednostima u određenom uzorku. Stoga, za pouzdanije statističke zaključke, treba znati ne samo procjenu tačke, već i interval, koji s velikom vjerovatnoćom γ (gama) pokriva procijenjeni indikator θ (teta).

Formalno, to su dvije takve vrijednosti (statistika) T1(X) i T2(X), šta T1< T 2 , za koji na datom nivou vjerovatnoće γ ispunjen je uslov:

Ukratko, vjerovatno je γ ili više prava vrijednost je između tačaka T1(X) i T2(X), koje se nazivaju donja i gornja granica interval povjerenja.

Jedan od uslova za konstruisanje intervala poverenja je njegova maksimalna uskost, tj. trebalo bi da bude što kraće. Želja je sasvim prirodna, jer. istraživač pokušava preciznije lokalizirati nalaz željenog parametra.

Iz toga slijedi da interval povjerenja treba da pokrije maksimalne vjerovatnoće distribucije. a sam rezultat bude na sredini.

Odnosno, vjerovatnoća odstupanja (pravog indikatora od procjene) naviše je jednaka vjerovatnoći odstupanja naniže. Takođe treba napomenuti da za iskrivljene distribucije, interval sa desne strane nije jednak intervalu lijevo.

Slika iznad jasno pokazuje da što je veći nivo pouzdanosti, širi je interval – direktna veza.

Ovo je bio mali uvod u teoriju intervalne procjene nepoznatih parametara. Pređimo na pronalaženje granica povjerenja za matematička očekivanja.

Interval pouzdanosti za matematička očekivanja

Ako su originalni podaci raspoređeni na , tada će prosjek biti normalna vrijednost. Ovo slijedi iz pravila da je linearna kombinacija normalne vrednosti takođe ima normalnu distribuciju. Stoga, da bismo izračunali vjerovatnoće, mogli bismo koristiti matematički aparat zakon normalne distribucije.

Međutim, to će zahtijevati poznavanje dva parametra - očekivane vrijednosti i varijanse, koji obično nisu poznati. Možete, naravno, koristiti procjene umjesto parametara (aritmetička sredina i ), ali tada distribucija srednje vrijednosti neće biti sasvim normalna, već će biti malo spljoštena. Građanin Vilijam Goset iz Irske vešto je primetio ovu činjenicu kada je objavio svoje otkriće u izdanju Biometrije iz marta 1908. U svrhu tajnosti, Gosset je potpisao sa Studentom. Tako se pojavila Studentova t-distribucija.

Međutim, normalnu distribuciju podataka koristi K. Gauss u analizi grešaka astronomska posmatranja, izuzetno je rijedak u zemaljskom životu i prilično je teško to utvrditi (za visoka preciznost potrebno je oko 2.000 opservacija). Stoga je najbolje napustiti pretpostavku normalnosti i koristiti metode koje ne zavise od distribucije originalnih podataka.

Postavlja se pitanje: kakva je distribucija aritmetičke sredine ako se ona izračunava iz podataka nepoznate distribucije? Odgovor daje dobro poznata u teoriji vjerovatnoće Central granična teorema (CPT). U matematici postoji nekoliko verzija (formulacije su se godinama usavršavale), ali se sve one, grubo rečeno, svode na tvrdnju da je zbir veliki broj nezavisne slučajne varijable poštuju zakon normalne distribucije.

Prilikom izračunavanja aritmetičke sredine koristi se zbir slučajnih varijabli. Iz ovoga proizlazi da aritmetička sredina ima normalnu distribuciju, u kojoj je očekivana vrijednost očekivana vrijednost početnih podataka, a varijansa je .

Pametni ljudi znamo kako dokazati CLT, ali ćemo to provjeriti uz pomoć eksperimenta provedenog u Excelu. Hajde da simuliramo uzorak od 50 ravnomjerno raspoređenih slučajnih varijabli (koristeći Excel funkcije NASLUČAJNO). Zatim ćemo napraviti 1000 takvih uzoraka i izračunati aritmetičku sredinu za svaki. Pogledajmo njihovu distribuciju.

Može se vidjeti da je raspodjela prosjeka bliska normalnom zakonu. Ako se volumen uzoraka i njihov broj povećaju, onda će sličnost biti još bolja.

Sada kada smo se sami uvjerili u valjanost CLT-a, možemo, koristeći , izračunati intervale povjerenja za aritmetičku sredinu, koji pokrivaju pravu srednju vrijednost ili matematičko očekivanje sa datom vjerovatnoćom.

Za utvrđivanje gornje i donje granice potrebno je poznavati parametre normalne distribucije. U pravilu se ne koriste, stoga se koriste procjene: aritmetička sredina i varijansa uzorka. Opet, ova metoda daje dobru aproksimaciju samo za velike uzorke. Kada su uzorci mali, često se preporučuje korištenje Studentove distribucije. Ne vjerujte! Studentova raspodjela za srednju vrijednost se javlja samo kada izvorni podaci imaju normalnu distribuciju, odnosno gotovo nikada. Stoga je bolje odmah postaviti minimalnu traku za količinu potrebnih podataka i koristiti asimptotski ispravne metode. Kažu da je dovoljno 30 opservacija. Uzmite 50 - ne možete pogriješiti.

T 1.2 su donja i gornja granica intervala povjerenja

– aritmetička sredina uzorka

s0– standardna devijacija uzorka (nepristrasna)

n - veličina uzorka

γ – nivo pouzdanosti (obično jednak 0,9, 0,95 ili 0,99)

c γ =Φ -1 ((1+γ)/2) – obrnuto značenje standardne funkcije normalne distribucije. Jednostavno rečeno, ovo je broj standardnih grešaka od aritmetičke sredine do donje ili gornje granice (naznačene tri vjerovatnoće odgovaraju vrijednostima od 1,64, 1,96 i 2,58).

Suština formule je da se uzme aritmetička sredina i onda se od nje izdvoji određeni iznos ( sa γ) standardne greške ( s 0 /√n). Sve se zna, uzmi i broji.

Prije masovne upotrebe PC-a, za dobivanje vrijednosti normalne funkcije distribucije i njene inverzne, koristili su . I dalje se koriste, ali je efikasnije okrenuti se gotovim Excel formule. Svi elementi iz gornje formule ( , i ) mogu se lako izračunati u Excelu. Ali postoji i gotova formula za izračunavanje intervala povjerenja - NORMA POVJERENJE. Njegova sintaksa je sljedeća.

NORMA POUZDANJA (alfa, standard_dev, veličina)

alfa– nivo značajnosti ili nivo samopouzdanja, što je u gornjoj notaciji jednako 1- γ, tj. vjerovatnoća da je matematičkaočekivanje će biti izvan intervala pouzdanosti. At nivo samopouzdanja 0,95, alfa je 0,05 i tako dalje.

standard_off je standardna devijacija podataka uzorka. Ne morate izračunati standardnu grešku, Excel će podijeliti s korijenom od n.

veličina– veličina uzorka (n).

Rezultat funkcije CONFIDENCE.NORM je drugi član iz formule za izračunavanje intervala povjerenja, tj. poluinterval. Shodno tome, donja i gornja tačka su prosjek ± dobijena vrijednost.

Tako je moguće izgraditi univerzalni algoritam za izračunavanje intervala povjerenja za aritmetičku sredinu, koji ne ovisi o distribuciji početnih podataka. Cijena univerzalnosti je njena asimptotičnost, tj. potreba za korištenjem relativno velikih uzoraka. Međutim, u veku moderne tehnologije skupiti pravi iznos podaci obično nisu teški.

Testiranje statističkih hipoteza korištenjem intervala povjerenja

(modul 111)

Jedan od glavnih problema koji se rješavaju u statistici je. Ukratko, njegova suština je ovo. Pretpostavlja se, na primjer, da je očekivanje opšte populacije jednako nekoj vrijednosti. Zatim se konstruiše distribucija srednjih vrednosti uzorka, koja se može posmatrati sa datim očekivanjem. Zatim ćemo pogledati gdje se u ovoj uslovnoj raspodjeli nalazi pravi prosjek. Ako prelazi dozvoljene granice, onda je pojava takvog prosjeka vrlo malo vjerojatna, a s jednim ponavljanjem eksperimenta gotovo je nemoguće, što je u suprotnosti s iznesenom hipotezom, koja se uspješno odbacuje. Ako srednja vrijednost ne ide dalje kritičnom nivou, onda se hipoteza ne odbacuje (ali ne i dokazuje!).

Dakle, uz pomoć intervala pouzdanosti, u našem slučaju za očekivanje, možete testirati i neke hipoteze. To je vrlo lako uraditi. Pretpostavimo da je aritmetička sredina za određeni uzorak 100. Provjerava se hipoteza da je očekivanje, recimo, 90. To jest, ako pitanje postavimo primitivno, onda zvuči ovako: može li biti da kada pravo značenje prosjek jednak 90, posmatrani prosjek je bio jednak 100?

Da biste odgovorili na ovo pitanje, dodatne informacije o prosjeku standardna devijacija i veličinu uzorka. Recimo standardna devijacija je 30, a broj zapažanja je 64 (za lako izdvajanje korijena). Tada je standardna greška srednje vrijednosti 30/8 ili 3,75. Za izračunavanje intervala pouzdanosti od 95% bit će potrebno odložiti obje strane prosjeka za dva standardne greške(tačnije za 1,96). Interval pouzdanosti će biti približno 100 ± 7,5, odnosno od 92,5 do 107,5.

Dalje obrazloženje je sljedeće. Ako testirana vrijednost spada u interval pouzdanosti, onda to nije u suprotnosti s hipotezom, jer uklapa se u granice slučajnih fluktuacija (sa vjerovatnoćom od 95%). Ako je testirana tačka izvan intervala pouzdanosti, onda je vjerovatnoća takvog događaja vrlo mala, u svakom slučaju ispod prihvatljivog nivoa. Stoga se hipoteza odbacuje kao kontradiktorna uočenim podacima. U našem slučaju hipoteza očekivanja je izvan intervala pouzdanosti (testirana vrijednost od 90 nije uključena u interval od 100±7,5), pa je treba odbaciti. Odgovarajući na prethodno primitivno pitanje, treba reći: ne, ne može, u svakom slučaju, to se dešava izuzetno rijetko. Često to ukazuje na specifičnu vjerovatnoću pogrešnog odbacivanja hipoteze (p-nivo), a ne na dati nivo prema kojem je građen interval povjerenja, ali o tome drugi put.

Kao što vidite, nije teško izgraditi interval povjerenja za srednju vrijednost (ili matematičko očekivanje). Glavna stvar je uhvatiti suštinu, a onda će stvari krenuti. U praksi, većina koristi interval pouzdanosti od 95%, što je oko dvije standardne greške široke na obje strane srednje vrijednosti.

To je sve za sada. Sve najbolje!

Ugradimo u MS EXCEL trust interval za procjenu srednje vrijednosti distribucije u slučaju poznata vrijednost disperzija.

Naravno izbor nivo poverenja u potpunosti ovisi o zadatku koji se radi. Dakle, stepen poverenja putnika u pouzdanost aviona, naravno, treba da bude veći od stepena poverenja kupca u pouzdanost sijalice.

Formulacija zadatka

Pretpostavimo da od stanovništva uzimajući uzorak veličina n. Pretpostavlja se da standardna devijacija ova distribucija je poznata. Neophodan na osnovu ovoga uzorci proceniti nepoznato srednja distribucija(μ, ) i konstruisati odgovarajuće bilateralni interval povjerenja.

Point Estimation

Kao što je poznato iz statistika(nazovimo to X cf) je nepristrasna procjena srednje vrijednosti ovo stanovništva i ima distribuciju N(μ;σ 2 /n).

Bilješka: Šta ako treba da gradite interval povjerenja u slučaju distribucije, koja nije normalno? U ovom slučaju dolazi u pomoć, što govori da je dovoljno velika veličina uzorci n iz distribucije ne- normalno, uzorkovanje distribucije statistike H av bice otprilike dopisivati se normalna distribucija sa parametrima N(μ;σ 2 /n).

dakle, tačka procene srednji vrijednosti distribucije imamo je srednja vrijednost uzorka, tj. X cf. A sada da se zaposlimo interval povjerenja.

Izgradnja intervala povjerenja

Obično, poznavajući distribuciju i njene parametre, možemo izračunati vjerovatnoću da će slučajna varijabla uzeti vrijednost iz datog intervala. Sada uradimo suprotno: pronađite interval u koji slučajna varijabla pada sa datom vjerovatnoćom. Na primjer, iz svojstava normalna distribucija poznato je da je sa vjerovatnoćom od 95% slučajna varijabla raspoređena po normalan zakon, pasti će unutar intervala približno +/- 2 od srednja vrijednost(vidi članak o). Ovaj interval će nam poslužiti kao prototip za interval povjerenja.

Sada da vidimo da li znamo distribuciju , izračunati ovaj interval? Da bismo odgovorili na pitanje, moramo navesti oblik distribucije i njegove parametre.

Znamo kakav je oblik distribucije normalna distribucija(zapamtite da mi pričamo o distribucija uzorkovanja statistika X cf).

Parametar μ nam je nepoznat (samo ga treba procijeniti pomoću interval povjerenja), ali imamo njegovu procjenu X cf, izračunato na osnovu uzorak, koji se mogu koristiti.

Drugi parametar je srednja standardna devijacija uzorka biće poznato, jednako je σ/√n.

Jer ne znamo μ, onda ćemo izgraditi interval +/- 2 standardne devijacije ne od srednja vrijednost, ali prema njegovoj poznatoj procjeni X cf. One. prilikom izračunavanja interval povjerenja to NEĆEMO pretpostaviti X cf pasti u interval +/- 2 standardne devijacije od μ sa vjerovatnoćom od 95%, a pretpostavićemo da je interval +/- 2 standardne devijacije od X cf sa vjerovatnoćom od 95% će pokriti μ - prosjek opšte populacije, iz koje uzorak. Ove dvije izjave su ekvivalentne, ali nam druga izjava omogućava konstruiranje interval povjerenja.

Osim toga, preciziramo interval: slučajna varijabla raspoređena po normalan zakon, sa vjerovatnoćom od 95% spada u interval +/- 1.960 standardne devijacije, ne +/- 2 standardne devijacije. Ovo se može izračunati pomoću formule \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. uzorak datoteke Razmak listova.

Sada možemo formulisati verovatnoćan iskaz koji će nam poslužiti za formiranje interval povjerenja:
„Verovatnoća da srednja populacija nalazi se od prosek uzorka unutar 1.960" standardne devijacije srednje vrijednosti uzorka", je jednako 95%.

Vrijednost vjerovatnoće spomenuta u izjavi ima poseban naziv , koji je povezan sa nivo značajnosti α (alfa) jednostavan izraz nivo poverenja =1 -α . U našem slučaju nivo značajnosti α =1-0,95=0,05 .

Sada, na osnovu ove vjerovatnoće, pišemo izraz za izračunavanje interval povjerenja:

gdje je Zα/2 – standard normalna distribucija(takva vrijednost slučajne varijable z, šta P(z>=Zα/2 )=α/2).

Bilješka: Gornji α/2-kvantil definiše širinu interval povjerenja in standardne devijacije srednja vrijednost uzorka. Gornji α/2-kvantil standard normalna distribucija je uvijek veći od 0, što je vrlo zgodno.

U našem slučaju, pri α=0,05, gornji α/2-kvantil jednako 1.960. Za druge nivoe značajnosti α (10%; 1%) gornji α/2-kvantil Zα/2 može se izračunati pomoću formule \u003d NORM.ST.OBR (1-α / 2) ili, ako je poznato nivo poverenja, =NORM.ST.OBR((1+nivo pouzdanosti)/2).

Obično prilikom izgradnje intervali povjerenja za procjenu srednje vrijednosti koristiti samo gornji α/2-kvantil i nemojte koristiti niži α/2-kvantil. Ovo je moguće jer standard normalna distribucija simetrično oko x-ose ( gustina njegove distribucije simetrično oko prosjek, tj. 0). Stoga nema potrebe za kalkulacijom niži α/2-kvantil(jednostavno se zove α /2-kvantil), jer jednako je gornji α/2-kvantil sa znakom minus.

Podsjetimo da je, bez obzira na oblik distribucije x, odgovarajuća slučajna varijabla X cf distribuirano otprilike u redu N(μ;σ 2 /n) (vidi članak o). Stoga, u opšti slučaj, gornji izraz za interval povjerenja je samo približan. Ako je x distribuiran preko normalan zakon N(μ;σ 2 /n), zatim izraz za interval povjerenja je tačno.

Izračunavanje intervala pouzdanosti u MS EXCEL-u

Hajde da rešimo problem.
Vrijeme odziva elektronska komponenta na ulazni signal je važna karakteristika uređaja. Inženjer želi da nacrta interval pouzdanosti za prosječno vrijeme odgovora na nivou pouzdanosti od 95%. Iz prethodnog iskustva, inženjer zna da je standardna devijacija vremena odziva 8 ms. Poznato je da je inženjer izvršio 25 mjerenja kako bi procijenio vrijeme odziva, prosječna vrijednost je bila 78 ms.

Rješenje: Inženjer želi znati vrijeme odziva elektronskog uređaja, ali razumije da vrijeme odziva nije fiksno, već slučajna varijabla koja ima svoju distribuciju. Dakle, najbolje čemu se može nadati je da odredi parametre i oblik ove distribucije.

Nažalost, iz uslova problema ne znamo oblik distribucije vremena odziva (ne mora biti normalno). , ova distribucija je također nepoznata. Samo je on poznat standardna devijacijaσ=8. Stoga, dok ne možemo izračunati vjerovatnoće i konstruirati interval povjerenja.

Međutim, iako ne znamo distribuciju vrijeme odvojen odgovor, znamo da prema CPT, distribucija uzorkovanja prosječno vrijeme odgovora je približno normalno(pretpostavićemo da su uslovi CPT se izvode, jer veličina uzorci dovoljno velika (n=25)) .

Nadalje, prosjek ova distribucija je jednaka srednja vrijednost distribucije odziva jedinica, tj. μ. ALI standardna devijacija ove distribucije (σ/√n) može se izračunati pomoću formule =8/ROOT(25) .

Takođe je poznato da je inženjer primio tačka procene parametar μ jednak 78 ms (X cf). Dakle, sada možemo izračunati vjerovatnoće, jer znamo oblik distribucije ( normalno) i njegove parametre (H sr i σ/√n).

Inženjer želi da zna očekivanu vrijednostμ distribucije vremena odziva. Kao što je gore navedeno, ovaj μ je jednak matematičko očekivanje distribucija uzorkovanja prosječnog vremena odziva. Ako koristimo normalna distribucija N(X cf; σ/√n), tada će željeni μ biti u opsegu +/-2*σ/√n sa vjerovatnoćom od približno 95%.

Nivo značaja jednako 1-0,95=0,05.

Konačno, pronađite lijevu i desnu granicu interval povjerenja.
Lijeva granica: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / ROOT (25) = 74,864
Desna granica: \u003d 78 + NORM. ST. OBR (1-0,05 / 2) * 8 / KORIJEN (25) = 81,136

Lijeva granica: =NORM.INV(0,05/2, 78, 8/SQRT(25))
Desna granica: =NORM.INV(1-0,05/2, 78, 8/SQRT(25))

Odgovori: interval povjerenja at 95% nivo pouzdanosti i σ=8msec jednaki 78+/-3.136ms

AT primjer fajla na listu Sigma poznat kreirao obrazac za proračun i konstrukciju bilateralni interval povjerenja za proizvoljno uzorci sa datim σ i nivo značajnosti.

CONFIDENCE.NORM() funkcija

Ako vrijednosti uzorci su u dometu B20:B79 , a nivo značajnosti jednako 0,05; zatim MS EXCEL formula:
=PROSJEČNO(B20:B79)-POVJERENJE(0,05,σ, BROJ(B20:B79))
će vratiti lijevu ivicu interval povjerenja.

Ista granica se može izračunati pomoću formule:
=PROSJEK(B20:B79)-NORM.ST.INV(1-0,05/2)*σ/SQRT(BROJ(B20:B79))

Bilješka: Funkcija CONFIDENCE.NORM() pojavila se u MS EXCEL 2010. Više rane verzije MS EXCEL je koristio funkciju TRUST().