Biografije Karakteristike Analiza

Testiranje hipoteze da je srednja vrijednost jednaka određenoj vrijednosti. Testiranje hipoteze da je prosjek jednak datoj vrijednosti a

8.1. Koncept zavisnih i nezavisnih uzoraka.

Odabir kriterija za testiranje hipoteze

je prvenstveno određena time da li su uzorci koji se razmatraju zavisni ili nezavisni. Hajde da uvedemo odgovarajuće definicije.

Def. Uzorci se pozivaju nezavisni, ako postupak odabira jedinica u prvom uzorku nije ni na koji način povezan sa postupkom odabira jedinica u drugom uzorku.

Primjer dva nezavisna uzorka su gore razmotreni uzorci muškaraca i žena koji rade u istom preduzeću (u istoj industriji, itd.).

Imajte na umu da nezavisnost dva uzorka ne znači da ne postoji zahtjev za određenom vrstom sličnosti ovih uzoraka (njihova homogenost). Stoga, proučavajući nivo prihoda muškaraca i žena, teško da ćemo dozvoliti takvu situaciju kada su muškarci odabrani iz okruženja moskovskih biznismena, a žene iz aboridžina Australije. Žene takođe treba da budu Moskovljanke i, štaviše, „poslovne žene“. Ali ovdje nije riječ o zavisnosti uzoraka, već o zahtjevu homogenosti proučavanog skupa objekata, koji mora biti zadovoljen kako u prikupljanju tako i u analizi socioloških podataka.

Def. Uzorci se pozivaju zavisni ili upareni, ako je svaka jedinica jednog uzorka "vezana" za određenu jedinicu drugog uzorka.

Posljednja definicija će vjerojatno postati jasnija ako damo primjer zavisnih uzoraka.

Pretpostavimo da želimo da saznamo da li je socijalni status oca u prosjeku niži od društveni status sine (vjerujemo da možemo izmjeriti ovo složeno i dvosmisleno društvena karakteristika osoba). Čini se očiglednim da je u takvoj situaciji svrsishodno odabrati parove ispitanika (otac, sin) i pretpostaviti da je svaki element prvog uzorka (jedan od očeva) „vezan“ za određeni element drugog uzorka (njegov sin). Ova dva uzorka će se zvati zavisna.

8.2. Testiranje hipoteza za nezavisne uzorke

Za nezavisni izbor kriterijuma zavisi od toga da li znamo opšte varijanse s 1 2 i s 2 2 karakteristike koja se razmatra za proučavane uzorke. Smatramo da je ovaj problem riješen, pod pretpostavkom da je to varijanse uzorka odgovaraju opštim. U ovom slučaju, kriterij je vrijednost:

Prije nego što pređemo na raspravu o situaciji kada su nam opće varijanse (ili barem jedna od njih) nepoznate, napominjemo sljedeće.

Logika upotrebe kriterijuma (8.1) slična je onoj koju smo opisali kada smo razmatrali kriterijum „Hi-kvadrat“ (7.2). Postoji samo jedna fundamentalna razlika. Govoreći o značenju kriterijuma (7.2), razmatrali smo beskonačan broj uzoraka veličine n, „preuzetih“ iz naše opšte populacije. Ovdje, analizirajući značenje kriterija (8.1), prelazimo na razmatranje beskonačnog broja pare uzorci veličine n 1 i n 2 . Za svaki par i , izračunava se statistika oblika (8.1). Ukupno dobijene vrijednosti takve statistike, u skladu s našom notacijom, odgovara normalna distribucija(kao što smo se dogovorili, slovo z se koristi za označavanje takvog kriterijuma, koji odgovara normalnoj raspodeli).

Dakle, ako su nam opšte varijanse nepoznate, onda smo primorani da ih koristimo umesto njih. procjene uzorka s 1 2 i s 2 2 . Međutim, u ovom slučaju, normalnu distribuciju treba zamijeniti Studentovom distribucijom - z treba zamijeniti sa t (kao što je bio slučaj u sličnoj situaciji pri konstruiranju interval povjerenja za matematička očekivanja). Međutim, za dovoljno velike veličine uzorka (n 1, n 2 ³ 30), kao što već znamo, Studentova raspodjela se praktično poklapa sa normalnom. Drugim riječima, s velikim uzorcima, možemo nastaviti koristiti kriterij:

Situacija je složenija kada su obje varijanse nepoznate, a veličina barem jednog uzorka mala. Tada dolazi u obzir još jedan faktor. Vrsta kriterija ovisi o tome možemo li nepoznate varijanse razmatranog svojstva u dva analizirana uzorka smatrati jednakima. Da bismo saznali, moramo testirati hipotezu:

H 0: s 1 2 = s 2 2 . (8.3)

Za provjeru ove hipoteze koristi se kriterij

O specifičnostima korištenja ovog kriterija će se raspravljati u nastavku, a sada ćemo nastaviti da raspravljamo o algoritmu za izbor kriterijuma koji se koristi za testiranje hipoteza o jednakosti matematičkih očekivanja.

Ako se hipoteza (8.3) odbaci, onda kriterij koji nas zanima ima oblik:

(8.5)

(tj. razlikuje se od testa (8.2) koji se koristi za velike uzorke po tome što odgovarajuća statistika nema normalnu, već Studentovu distribuciju). Ako se prihvati hipoteza (8.3), tada se mijenja tip korištenog kriterija:

(8.6)

Sumirajmo kako se bira kriterijum za testiranje hipoteze o jednakosti opštih matematičkih očekivanja na osnovu analize dva nezavisna uzorka.

poznato

nepoznato

veličina uzorka je velika

H 0: s 1 = s 2 se odbija

prihvaćeno

8.3. Testiranje hipoteza za zavisne uzorke

Pređimo na razmatranje zavisnih uzoraka. Neka nizovi brojeva

X 1 , X 2 , … , X n ;

Y 1 , Y 2 , … , Y n –

ovo su vrijednosti razmatranog slučajnog odabira za elemente dva zavisna uzorka. Hajde da uvedemo notaciju:

D i = X i - Y i , i = 1, ... , n.

Za zavisan kriterijum uzorkovanja koji vam omogućava da testirate hipotezu

kao što slijedi:

Imajte na umu da upravo dati izraz za s D nije ništa drugo nego novi izraz za poznata formula izražavaju standardnu ​​devijaciju. AT ovaj slučaj mi pričamo o standardnoj devijaciji vrijednosti D i . Slična formula se u praksi često koristi kao jednostavnija (u usporedbi s "direktnim" izračunavanjem zbira kvadrata odstupanja vrijednosti količine koja se razmatra od odgovarajuće aritmetičke sredine) metoda za izračunavanje varijanse.

Ako uporedimo gornje formule s onima koje smo koristili kada smo raspravljali o principima konstruiranja intervala povjerenja, lako je vidjeti da je testiranje hipoteze o jednakosti srednjih vrijednosti za slučaj zavisnih uzoraka u suštini test jednakosti nuli. matematičkog očekivanja vrijednosti D i . Vrijednost

je standardna devijacija za D i . Stoga je vrijednost kriterija t n -1 upravo opisana u suštini jednaka vrijednosti D i izraženoj u dijelovima prosjeka standardna devijacija. Kao što smo već rekli (kada se raspravlja o metodama za konstruisanje intervala poverenja), ovaj indikator se može koristiti za procenu verovatnoće razmatrane vrednosti D i . Razlika je u tome što smo gore govorili o jednostavnoj aritmetičkoj sredini, normalno raspoređenoj, a ovdje je riječ o prosječnim razlikama, takvi prosjeci imaju Studentovu distribuciju. Ali argumenti o odnosu između vjerovatnoće odstupanja aritmetičke sredine uzorka od nule (sa matematičkim očekivanjem jednakim nuli) i koliko jedinica s je ovo odstupanje ostaju valjani.

Poređenje srednjih vrijednosti dvije populacije je važno praktična vrijednost. U praksi se često dešavaju slučajevi prosječan rezultat jedna serija eksperimenata se razlikuje od prosječnog rezultata druge serije. Ovo postavlja pitanje da li je uočeno neslaganje između prosjeka moguće objasniti neizbježnim slučajne greške eksperiment ili je uzrokovano nekim obrascima. U industriji se zadatak poređenja prosjeka često javlja prilikom uzorkovanja kvaliteta proizvoda proizvedenih na različitim postrojenjima ili u različitim tehnološkim režimima, u finansijskoj analizi - kada se poredi nivo rentabilnosti različitih sredstava itd.

Hajde da formulišemo problem. Neka postoje dvije populacije okarakterizirane općim sredstvima i i poznate varijanse i. Potrebno je provjeriti hipotezu o jednakosti općih prosjeka, tj. :=. Da bi se testirala hipoteza, iz ovih populacija su uzeta dva nezavisna uzorka volumena i za koje su pronađene aritmetičke sredine i varijanse uzorka i. Uz dovoljno velike veličine uzorka, uzorak srednje vrijednosti i ima približno normalan zakon raspodjele, odnosno Ako je hipoteza tačna, razlika - ima normalan zakon distribucije sa matematičkim očekivanjem i disperzijom.

Dakle, kada je hipoteza ispunjena, statistika

ima standardnu ​​normalnu distribuciju N(0; 1).

Testiranje hipoteza o numeričke vrijednosti parametri

Hipoteze o brojčanim vrijednostima javljaju se u raznim problemima. Neka su vrijednosti nekog parametra proizvoda koje proizvodi automatska linija, a neka je zadana nominalna vrijednost ovog parametra. Svaki zasebna vrijednost može, naravno, nekako odstupiti od date nominalne vrijednosti. Očigledno, da biste provjerili ispravne postavke ove mašine, morate biti sigurni da će prosječna vrijednost parametra za proizvode proizvedene na njoj odgovarati nominalnoj vrijednosti, tj. testirati hipotezu u odnosu na alternativu, ili, ili

Uz proizvoljno podešavanje mašine, možda će biti potrebno testirati hipotezu da je tačnost proizvodnje proizvoda za dati parametar, dat disperzijom, jednaka datu vrijednost, tj. ili, na primjer, činjenica da je udio neispravnih proizvoda proizvedenih od strane mašine jednak datoj vrijednosti p 0 , tj. itd.

Slični problemi mogu se pojaviti, na primjer, u finansijskoj analizi, kada je prema podacima uzorka potrebno utvrditi da li je moguće izračunati prinos na imovinu određene vrste ili portfolio hartija od vrednosti, ili njegov rizik jednak datom broju; ili, na osnovu rezultata selektivne revizije sličnih dokumenata, trebate se uvjeriti da li se postotak napravljenih grešaka može smatrati jednakim nominalnoj vrijednosti, itd.

AT opšti slučaj hipoteze ovaj tip imaju oblik, gdje je određeni parametar distribucije koja se proučava, a područje njegovih specifičnih vrijednosti, koje se u određenom slučaju sastoji od jedne vrijednosti.

5. novembar 2012. 5. novembar 2012. 5. novembar 2012. 5. novembar 2012. Predavanje 6. Poređenje dva uzorka 6-1. Hipoteza o jednakosti sredstava. Upareni uzorci 6-2 Interval pouzdanosti za srednju razliku. Upareni uzorci 6-3. Hipoteza jednake varijance 6-4. Hipoteza jednakosti udjela 6-5. Interval povjerenja za razliku udjela


2 Ivanov O.V., 2005. U ovom predavanju… U prethodnom predavanju testirali smo hipotezu o jednakosti srednjih vrijednosti dvije opšte populacije i izgradili interval povjerenja za razliku srednjih vrijednosti za slučaj nezavisnih uzoraka. Sada razmatramo kriterijum za testiranje hipoteze jednakosti srednjih vrednosti i konstruišemo interval poverenja za razliku srednjih vrednosti u slučaju uparenih (zavisnih) uzoraka. Zatim će se u odjeljku 6-3 testirati hipoteza jednakosti varijansi, u dijelu 6-4 hipoteza jednakosti udjela. Konačno, konstruiramo interval povjerenja za razliku udjela.


5. novembar 2012. 5. novembar 2012. 5. novembar 2012. 5. novembar 2012. Hipoteza jednakosti sredstava. Upareni uzorci Izjava o problemu Hipoteze i statistika Redoslijed radnji Primjer


4 Ivanov O.V., 2005 Upareni uzorci. Opis problema Šta imamo 1. Dva jednostavna slučajni uzorci dobijene iz dvije populacije. Uzorci su upareni (ovisni). 2. Oba uzorka imaju veličinu n 30. Ako nisu, onda su oba uzorka uzeta iz normalno raspoređenih populacija. Ono što želimo testirati hipotezu o razlici između srednjih vrijednosti dvije populacije:


5 Ivanov O.V., 2005 Statistika za uparene uzorke Za testiranje hipoteze koristi se statistika: gdje je - razlika između dvije vrijednosti u jednom paru - opći prosjek za uparene razlike - prosjek uzorka za uparene razlike - standardna devijacija razlike za uzorak - broj parova


6 Ivanov O.V., 2005 Primjer. Obuka studenata Grupa od 15 polaznika je polagala test prije i nakon obuke. Rezultati ispitivanja u tabeli. Provjerimo hipotezu za uparene uzorke za odsustvo uticaja treninga na pripremljenost učenika na nivou značajnosti 0,05. Rješenje. Izračunajmo razlike i njihove kvadrate. Učenik Prije Poslije Σ= 21 Σ= 145


7 Ivanov O.V., 2005 Rješenje Korak 1. Glavna i alternativna hipoteza: Korak 2. Postavlja se nivo značajnosti =0,05. Korak 3. Prema tabeli za df = 15 - 1=14, nalazimo kritičnu vrijednost t = 2,145 i zapišemo kritičnu površinu: t > 2,145. 2.145."> 2.145."> 2.145." title="(!LANG:7 Ivanov O.V., 2005. Rješenje Korak 1. Glavne i alternativne hipoteze: Korak 2. Postavlja se nivo značajnosti = 0.05. Korak 3. Po U tabeli za df = 15 - 1=14 nalazimo kritičnu vrijednost t = 2,145 i zapišemo kritičnu površinu: t > 2,145."> title="7 Ivanov O.V., 2005 Rješenje Korak 1. Glavna i alternativna hipoteza: Korak 2. Postavlja se nivo značajnosti =0,05. Korak 3. Prema tabeli za df = 15 - 1=14, nalazimo kritičnu vrijednost t = 2,145 i zapišemo kritičnu površinu: t > 2,145."> !}




9 Ivanov O.V., 2005. Statistika rješenja uzima vrijednost: Korak 5. Uporedimo dobijenu vrijednost sa kritičnom površinom. 1.889


5. novembar 2012. 5. novembar 2012. 5. novembar 2012. 5. novembar 2012. Interval pouzdanosti za srednju razliku. Upareni uzorci Iskaz problema Metoda za konstruisanje intervala pouzdanosti Primjer


11 Ivanov OV, 2005 Opis problema Šta imamo Imamo dva slučajna uparena (zavisna) uzorka veličine n iz dve opšte populacije. Populacije imaju normalnu distribuciju sa parametrima 1, 1 i 2, 2, ili su obje veličine uzorka 30. Ono što želimo Procijeniti srednju vrijednost parnih razlika za dvije populacije. Da biste to učinili, konstruirajte interval povjerenja za srednju vrijednost u obliku:






5. novembar 2012. 5. novembar 2012. 5. novembar 2012. 5. novembar 2012. Hipoteza o jednakim varijansama Izjava problema Hipoteze i statistika Slijed radnji Primjer


15 Ivanov O.V., 2005. U toku studije… Istraživač će možda morati da proveri pretpostavku da su varijanse dve proučavane populacije jednake. U slučaju kada ove opće populacije imaju normalnu distribuciju, za to postoji F-test, koji se također naziva Fisherov test. Za razliku od Studenta, Fischer nije radio u pivari.


16 Ivanov OV, 2005 Opis problema Šta imamo 1. Dva jednostavna slučajna uzorka dobijena iz dvije normalno raspoređene populacije. 2. Uzorci su nezavisni. To znači da ne postoji veza između subjekata uzoraka. Šta želimo da testiramo hipotezu o jednakosti varijansi populacije:














23 Ivanov OV, 2005. Primjer Medicinski istraživač želi provjeriti postoji li razlika između pulsa pušača i nepušača (broj otkucaja u minuti). Rezultati dvije nasumično odabrane grupe prikazani su u nastavku. Koristeći α = 0,05, saznajte da li je ljekar u pravu. PušačiNepušači


24 Ivanov O.V., 2005 Rješenje Korak 1. Glavne i alternativne hipoteze: Korak 2. Postavlja se nivo značajnosti =0,05. Korak 3. Prema tabeli za broj stupnjeva slobode brojioca 25 i nazivnika 17 nalazimo kritičnu vrijednost f = 2,19 i kritično područje: f > 2,19. Korak 4. Na osnovu uzorka izračunavamo vrijednost statistike: 2.19. Korak 4. Na osnovu uzorka izračunavamo vrijednost statistike: ">




5. novembar 2012. 5. novembar 2012. 5. novembar 2012. 5. novembar 2012. Hipoteza jednakosti dionica Prikaz problema Hipoteze i statistika Redoslijed radnji Primjer


27 Ivanov OV, 2005. Pitanje Od 100 nasumično odabranih studenata Sociološkog fakulteta, 43 pohađaju specijalne kurseve. Od 200 nasumično odabranih studenata ekonomije, njih 90 pohađa specijalne kurseve. Da li se udio studenata koji pohađaju specijalne kurseve razlikuje na odsjecima za sociologiju i ekonomiju? Čini se da se ne razlikuje bitno. Kako to provjeriti? Udio onih koji pohađaju specijalne kurseve je udio karakteristike. 43 - broj "uspjeha". 43/100 - udio uspjeha. Terminologija je ista kao u Bernoullijevoj shemi.


28 Ivanov OV, 2005 Opis problema Šta imamo 1. Dva jednostavna slučajna uzorka dobijena iz dve normalno raspoređene populacije. Uzorci su nezavisni. 2. Za uzorke su zadovoljeni np 5 i nq 5. To znači da najmanje 5 elemenata uzorka ima vrijednost osobine koja se proučava, a najmanje 5 nema. Šta želimo da testiramo hipotezu o jednakosti udela osobine u dve opšte populacije:






31 Ivanov O.V., 2005 Primjer. Specijalni kursevi dva fakulteta Od 100 nasumično odabranih studenata Sociološkog fakulteta, 43 pohađaju specijalne kurseve. Od 200 studenata ekonomije, njih 90 pohađa specijalne kurseve. Na nivou značajnosti = 0,05 testirati hipotezu da nema razlike između udjela pohađanja specijalnih predmeta na ova dva fakulteta. 33 Ivanov O.V., 2005 Rješenje Korak 1. Glavne i alternativne hipoteze: Korak 2. Postavlja se nivo značajnosti =0,05. Korak 3. Prema tabeli normalne raspodjele, nalazimo kritične vrijednosti z = – 1,96 i z = 1,96 i gradimo kritično područje: z 1,96. Korak 4. Na osnovu uzorka izračunavamo vrijednost statistike.


34 Ivanov O.V., 2005 Rešenje Korak 5. Uporedimo dobijenu vrednost sa kritičnom površinom. Rezultirajuća statistička vrijednost nije pala u kritično područje. Korak 6. Formuliramo zaključak. Nema razloga da se odbaci glavna hipoteza. Udio onih koji pohađaju specijalne kurseve ne razlikuje se statistički značajno.


5. novembar 2012. 5. novembar 2012. 5. novembar 2012. 5. novembar 2012.





Provjera homogenosti dva uzorka vrši se pomoću Studentovog t-testa (ili t- kriterijumi). Razmotrimo izjavu o problemu provjere homogenosti dva uzorka. Neka postoje dva uzorka veličine i . Treba provjeriti Nulta hipoteza da su opšta sredina dva uzorka jednaka. To je, i . n 1

Prije razmatranja metodologije za rješavanje problema, razmotrite neke teorijske odredbe koristi se za rješavanje problema. Čuveni matematičar W.S. Gosset (koji je niz svojih radova objavio pod pseudonimom Student) je dokazao tu statistiku t(6.4) poštuje određeni zakon raspodjele, koji je kasnije nazvan Studentov zakon raspodjele (drugi naziv zakona je ” t– distribucija”).

Srednja vrijednost slučajne varijable X;

Očekivana vrijednost slučajna varijabla X;

Standardna devijacija srednjeg volumena uzorka n.

Ocjena standardna devijacija prosjek se izračunava po formuli (6.5):

Standardna devijacija slučajne varijable X.

Studentova distribucija ima jedan parametar - broj stepeni slobode.

Vratimo se sada originalnoj formulaciji problema dva uzorka i razmotrimo slučajna varijabla jednaka razlici između srednjih vrednosti dva uzorka (6.6):

(6.6)

Pod uslovom da je ispunjena hipoteza o jednakosti opštih proseka, važi (6.7):

(6.7)

Prepišimo relaciju (6.4) za naš slučaj:

Procjena standardne devijacije može se izraziti u smislu procjene kombinovane standardne devijacije stanovništva (6.9):

(6.9)

Procjena varijanse združene populacije može se izraziti u smislu procjena varijanse izračunate iz dva uzorka i:

(6.10)

Uzimajući u obzir formulu (6.10), relacija (6.9) se može prepisati u oblik (6.11). Relacija (6.9) je glavna formula za izračunavanje srednji problemi poređenja:

Prilikom zamjene vrijednosti u formuli (6.8), imat ćemo vrijednost uzorka t-kriterijumi. Prema Studentovim tablicama raspodjele sa brojem stupnjeva slobode i može se odrediti dati nivo značaja. Sada, ako je , onda se hipoteza o jednakosti dvaju sredstava odbacuje.

Razmotrimo primjer izvođenja proračuna za testiranje hipoteze o jednakosti dva prosjeka u EXCEL-u. Formiramo tabelu podataka (slika 6.22). Podatke ćemo generirati pomoću programa za generiranje slučajni brojevi paket ”Analiza podataka”:

X1 uzorak iz normalne distribucije s parametrima volumen ;

X2 je uzorak iz normalne distribucije sa parametrima zapremine;

X3 uzorak iz normalne distribucije s parametrima volumen ;

X4 uzorak iz normalne distribucije sa parametrima volumen.


Provjerimo hipotezu o jednakosti dvaju srednjih (X1-X2), (X1-X3), (X1-X4). Na početku izračunavamo parametre uzoraka karakteristika X1-X4 (slika 6.23). Zatim izračunavamo vrijednost t- kriterijumi. Proračuni će se vršiti pomoću formula (6.6) - (6.9) u EXCEL-u. Rezultate proračuna sumiramo u tabeli (slika 6.24).

Rice. 6.22. tabela podataka

Rice. 6.23. Parametri odabira karakteristika X1-X4

Rice. 6.24. Zbirna tabela za izračunavanje vrijednosti t– kriterijumi za parove karakteristika (X1-X2), (X1-X3), (X1-X4)

Prema rezultatima datim u tabeli na sl. 6.24, možemo zaključiti da se za par karakteristika (X1-X2) hipoteza o jednakosti prosjeka dvaju svojstava odbacuje, a za parove karakteristika (X1-X3), (X1-X4) hipoteza može smatrati poštenim.

Isti rezultati se mogu dobiti korištenjem programa „Dva uzorka t-test sa istim varijacijama” paketa za analizu podataka. Interfejs programa je prikazan na sl. 6.25.

Rice. 6.25. Parametri programa „Dva uzorka t- test sa jednakim varijacijama”

Rezultati proračuna za testiranje hipoteza o jednakosti dva srednja para osobina (X1-X2), (X1-X3), (X1-X4), dobijeni programom, prikazani su na sl. 6.26-6.28.

Rice. 6.26. Izračun vrijednosti t– kriterijum za par karakteristika (X1-X2)

Rice. 6.27. Izračun vrijednosti t– kriterijum za par karakteristika (X1-X3)

Rice. 6.28. Izračun vrijednosti t– kriterijum za par karakteristika (X1-X4)

dva uzorka t takođe se naziva test sa jednakim varijacijama t- test sa nezavisnim uzorcima. Odlična distribucija takođe primio t-test sa zavisnim uzorcima. Situacija kada je potrebno primijeniti ovaj kriterij nastaje kada se ista slučajna varijabla mjeri dva puta. Broj zapažanja u oba slučaja je isti. Hajde da uvedemo notaciju za dva uzastopna mjerenja nekog svojstva istih objekata i , , i označimo razliku dva uzastopna mjerenja kao :

U ovom slučaju, formula za vrijednost uzorka kriterija ima oblik:

, (6.13)

(6.15)

U ovom slučaju, broj stupnjeva slobode je . Testiranje hipoteze može se izvršiti pomoću programa „Upareni dva uzorka t-test” paketa za analizu podataka (slika 6.29).

Rice. 6.29. Parametri programa „Upareni dva uzorka t-test"

6.5. Analiza varijanse - klasifikacija po jednom atributu (F - kriterij)

U analizi varijanse testira se hipoteza, koja je generalizacija hipoteze o jednakosti dvaju srednjih vrijednosti na slučaj kada se testira hipoteza jednakosti više srednjih vrijednosti u isto vrijeme. U analizi varijanse proučava se stepen uticaja jednog ili više faktorskih znakova na efektivni znak. Ideja analiza varijanse pripada R. Fischeru. Koristio ga je za obradu rezultata agronomskih eksperimenata. Analiza varijanse se koristi za određivanje značaja uticaja faktori kvaliteta na vrijednost koja se proučava. Engleska skraćenica za analizu varijanse je ANOVA (analysis variation).

Opšti oblik prikaz podataka sa klasifikacijom prema jednom atributu prikazan je u tabeli 6.1.

Tabela 6.1. Oblik prikaza podataka sa klasifikacijom prema jednom atributu

Razmotrimo dva nezavisna uzorka x 1, x 2 , ….. , x n i y 1 , y 2 , … , y n izvučena iz normalnih općih populacija s istim varijacijama, veličine uzorka su n i m, respektivno, a prosjeci μ x , μ y i varijansa σ 2 su nepoznati. Potrebno je provjeriti glavnu hipotezu N 0: μ x =μ y sa konkurentskom N 1: μ x μ y .

Kao što je poznato, uzorak znači i imaće sljedeća svojstva: ~N(μ x , σ 2 /n), ~N(μ y , σ 2 /m).

Njihova razlika je normalna vrijednost sa prosjekom i varijansa, dakle

~ (23).

Pretpostavimo neko vrijeme da je glavna hipoteza H 0 tačna: μ x –μ y =0. Onda i podijelimo vrijednost sa njenom standardnom devijacijom, dobijamo standardni normalni sl. vrijednost ~N(0,1).

Prethodno je zapaženo da magnitude raspoređeno po zakonu sa (n-1)-tim stepenom slobode, a - po zakonu sa (m-1) stepenom slobode. Uzimajući u obzir nezavisnost ova dva zbira, dobijamo da je njihov ukupan iznos raspoređeno po zakonu sa n+m-2 stepena slobode.

Podsjećajući na stavku 7, vidimo da je razlomak poštuje t-distribuciju (Student) sa ν=m+n-2 stepena slobode: Z=t. Ova činjenica se dešava samo kada je hipoteza H 0 tačna.

Zamenivši ξ i Q njihovim izrazima, dobijamo proširenu formulu za Z:

(24)

Sljedeća vrijednost Z, nazvana statistika kriterija, omogućava vam da donesete odluku sljedećim redoslijedom akcija:

1. Utvrđuje se površina D=[-t β,ν , +t β,ν ] koja sadrži β=1–α površine ispod krive t ν -distribucije (tablica 10).

2. Eksperimentalna vrijednost Z na statistici Z izračunava se po formuli (24), za koju se umjesto X 1 i Y 1 zamjenjuju vrijednosti x 1 i y 1 specifičnih uzoraka, kao i njihove srednje vrijednosti uzorka i .

3. Ako je Z na D, onda se smatra da hipoteza H 0 nije u suprotnosti s eksperimentalnim podacima i prihvata se.

Ako je Z na D, onda je hipoteza H 1 prihvaćena.

Ako je hipoteza H 0 tačna, onda Z ispunjava poznatu t ν -distribuciju sa nultom srednjom vrijednosti i sa velikom vjerovatnoćom β=1–α spada u D-domen prihvatanja hipoteze H 0 . Kada se posmatra, eksperimentalna vrijednost Z on pada u D. Ovo smatramo dokazom u prilog hipotezi H 0 .

Kada Z 0 n leži izvan D (kako kažu, leži u kritičnom području K), što je prirodno ako je hipoteza H 1 tačna, ali malo vjerovatno, ako je H 0 tačna, onda moramo odbaciti hipotezu H 0 tako što prihvatanje H 1 .

Primjer 31.

Upoređuju se dvije marke benzina: A i B. Na 11 automobila iste snage jednom je na kružnom putu testiran benzin razreda A i B. Jedan automobil se pokvario na putu i za njega nema podataka za benzin B. .

Potrošnja benzina na 100 kilometara

Tabela 12

i
X i 10,51 11,86 10,5 9,1 9,21 10,74 10,75 10,3 11,3 11,8 10,9 n=11
i 13,22 13,0 11,5 10,4 11,8 11,6 10,64 12,3 11,1 11,6 - m=10

Disperzija potrošnje razreda A i B je nepoznata i pretpostavlja se da je ista. Da li je moguće, na nivou značajnosti α=0,05, prihvatiti hipotezu da su pravi prosječni troškovi μ A i μ B ovih vrsta benzina isti?

Rješenje. Testiranje hipoteze H 0: μ A -μ B \u003d 0 s konkurentskom. H 1: μ 1 μ 2 uradite sljedeće tačke:

1. Nađite srednje vrijednosti uzorka i zbir kvadrata odstupanja Q.

;

;

2. Izračunajte eksperimentalnu vrijednost Z statistike

3. Naći granicu t β,ν iz tabele 10 t-distribucije, za broj stupnjeva slobode ν=m+n–2=19 i β=1–α=0,95. Tabela 10 ima t 0,95,20 =2,09 i t 0,95,15 =2,13, ali ne i t 0,95,19. Interpolacijom nalazimo t 0.95.19 =2.09+ =2.10.

4. Provjerite koje od dvije oblasti D ili K sadrži broj Z na . Zona=-2,7 D=[-2,10; -2,10].

Pošto posmatrana vrijednost Z on leži u kritičnom području, K=R\D, odbacujemo je. H 0 i prihvati hipotezu H 1 . U ovom slučaju, za pro i se kaže da imaju značajnu razliku. Ako bi, pod svim uslovima ovog primjera, samo Q promijenio, recimo, Q se udvostručio, onda bi se i naš zaključak promijenio. Udvostručenje Q bi dovelo do smanjenja vrijednosti Z na vrijeme, a onda bi broj Zon pao u dozvoljena površina D, kako bi hipoteza H 0 prošla test i bila prihvaćena. U ovom slučaju, neslaganje između i bi se objasnilo prirodnim rasipanjem podataka, a ne činjenicom da je μ A μ B.

Teorija testiranja hipoteza je vrlo opsežna, hipoteze mogu biti o obliku zakona raspodjele, o homogenosti uzoraka, o nezavisnosti slučajne vrijednosti itd.

KRITERIJ c 2 (PEARSON)

Najčešći kriterij za testiranje jednostavne hipoteze u praksi. Primjenjuje se kada je zakon distribucije nepoznat. Razmotrimo slučajnu varijablu X nad kojom je n nezavisni testovi. Dobija se realizacija x 1 , x 2 ,...,x n. Potrebno je testirati hipotezu o zakonu raspodjele ove slučajne varijable.

Razmotrimo slučaj jednostavne hipoteze. Jednostavna hipoteza testira uklapanje uzorka sa opšta populacija, koji ima normalnu distribuciju (poznatu). Po uzorcima gradimo varijantne serije x(1) , x(2) , ..., x(n) . Interval je podijeljen na podintervale. Neka su ovi intervali r. Tada nalazimo vjerovatnoću da X padne u interval Di, i=1,...,r kao rezultat testa, ako je hipoteza koja se testira tačna.

Kriterijum ne provjerava istinitost gustine vjerovatnoće, već istinitost brojeva

Sa svakim intervalom Di povezujemo slučajni događaj A i - pogodak u ovom intervalu (pogodan kao rezultat testiranja preko X njegove implementacije rezultat u Di). Uvodimo slučajne varijable. m i - broj ispitivanja od n sprovedenih, u kojima se dogodio događaj A i. m i su raspoređeni prema binomskom zakonu iu slučaju istinitosti hipoteze

Dm i =np i (1-p i)

Kriterijum c 2 ima oblik

p 1 +p 2 +...+p r =1

m 1 +m 2 +...+m r =n

Ako je hipoteza koja se testira tačna, tada m i predstavlja učestalost pojave događaja koji ima vjerovatnoću p i u svakom od n provedenih testova, stoga možemo smatrati m i slučajnom varijablom koja poštuje binomski zakon sa središtem u tački np i . Kada je n veliko, onda možemo pretpostaviti da je frekvencija asimptotski normalno raspoređena sa istim parametrima. Ako je hipoteza tačna, treba očekivati ​​da će postojati asimptotski normalno raspoređena

međusobno povezani

Hajde da razmotrimo vrednost

c 2 - asimptotski zbir kvadrata normalne vrednosti povezane linearna zavisnost. Ranije smo se susreli sa sličnim slučajem i znamo da je prisustvo linearna veza dovelo je do smanjenja broja stepeni slobode za jedan.

Ako je hipoteza koja se testira tačna, onda kriterij c 2 ima distribuciju koja na n®¥ teži raspodjeli c 2 sa r-1 stupnjevima slobode.

Recimo da je hipoteza pogrešna. Tada postoji tendencija povećanja termina u zbiru, tj. ako je hipoteza pogrešna, tada će ovaj zbir pasti u određeno područje velike vrijednosti c 2 . Kao kritičnu regiju, uzimamo regiju pozitivne vrijednosti kriterijuma


U slučaju nepoznatih parametara distribucije, svaki parametar smanjuje za jedan broj stupnjeva slobode za Pearsonov kriterij