Biografije Karakteristike Analiza

Pearsonov χ2 test dobrog uklapanja (Chi-kvadrat). Testovi usklađenosti koji se koriste za testiranje statističkih hipoteza

Statističke hipoteze. Kriteriji pristanka.

Null(Osnovni, temeljni) nazvati postavljenu hipotezu o obliku nepoznate distribucije ili o parametrima poznate distribucije. Natječući se (alternativa) naziva se hipoteza koja je u suprotnosti s nultom hipotezom.

Na primjer, ako je nulta hipoteza da je slučajna varijabla x raspodijeljen prema zakonu, onda bi konkurentska hipoteza mogla biti da je slučajna varijabla x raspoređeni prema drugom zakonu.

Statistički kriterij(ili jednostavno kriterij) naziva se slučajna varijabla DO, koji služi za testiranje nulte hipoteze.

Nakon odabira određenog kriterija, na primjer kriterija, skup svih njegovih mogućih vrijednosti dijeli se na dva disjunktna ​​podskupa: jedan od njih sadrži vrijednosti kriterija pri kojima se nulta hipoteza odbacuje, a drugi - pri kojima se je prihvaćeno.

Kritično područje nazvati skup vrijednosti kriterija pri kojima Nulta hipoteza odbijena. Područje prihvaćanja hipoteza nazovite skup vrijednosti kriterija pri kojima se hipoteza prihvaća. Kritične točke Nazivaju se točkama koje odvajaju kritično područje od područja u kojem se prihvaća nulta hipoteza.

Za naš primjer, s vrijednošću , vrijednost izračunata iz uzorka odgovara području prihvaćanja hipoteze: slučajna varijabla raspoređena je prema zakonu. Ako je izračunata vrijednost , tada ona spada u kritično područje, odnosno hipotezu o raspodjeli nasumična varijabla pravomoćno odbijen.

U slučaju distribucije, kritično područje određeno je nejednakošću, područje u kojem se prihvaća nulta hipoteza određeno je nejednakošću.

2.6.3. Kriterij dogovora Pearson.

Jedna od zadaća znanosti o životinjama i veterinarske genetike je uzgoj novih pasmina i vrsta sa potrebnim karakteristikama. Na primjer, povećanje imuniteta, otpornost na bolesti ili promjena boje krzna.

U praksi se pri analizi rezultata vrlo često pokaže da stvarni rezultati više ili manje odgovaraju nekima teorijski zakon distribucije. Postoji potreba za procjenom stupnja podudarnosti između stvarnih (empirijskih) podataka i teorijskih (hipotetskih) podataka. Da biste to učinili, iznesite nultu hipotezu: rezultirajuća populacija raspoređena je prema zakonu "A". Hipoteza o očekivanom zakonu raspodjele testira se pomoću posebno odabrane slučajne varijable - kriterija dobrog uklapanja.

Kriterij dogovora naziva se kriterij za provjeru hipoteze o pretpostavljenom zakonu nepoznate distribucije.

Postoji nekoliko kriterija slaganja: Pearson, Kolmogorov, Smirnov itd. Najčešće se koristi Pearsonov test podesnosti.

Razmotrimo primjenu Pearsonovog kriterija na primjeru provjere hipoteze o normalnom zakonu raspodjele stanovništva. U tu svrhu usporedit ćemo empirijsko i teoretsko (izračunato u nastavku normalna distribucija) frekvencije.

Obično postoji određena razlika između teoretskih i empirijskih učestalosti. Na primjer:

Empirijske učestalosti 7 15 41 93 113 84 25 13 5

Teorijske frekvencije 5 13 36 89 114 91 29 14 6

Razmotrimo dva slučaja:

Razlika između teoretskih i empirijskih frekvencija je slučajna (neznačajna), tj. moguće je dati prijedlog o raspodjeli empirijskih frekvencija prema normalno pravo;

Razlika između teoretskih i empirijskih frekvencija nije slučajna (značajna), tj. teorijske učestalosti izračunate su na temelju netočne hipoteze o normalnoj distribuciji stanovništva.

Korištenjem Pearsonovog testa prilagodbe možete odrediti je li odstupanje između teoretskih i empirijskih frekvencija slučajno ili ne, tj. s datim povjerenje vjerojatnost odrediti distribuiran populacija prema normalnom pravu ili ne.

Dakle, neka se empirijska distribucija dobije iz uzorka veličine n:

Mogućnosti……

Empirijske frekvencije…….

Pretpostavimo da su teorijske frekvencije izračunate pod pretpostavkom normalne distribucije. Na razini značajnosti potrebno je testirati nultu hipotezu: populacija je normalno raspoređena.

Kao kriterij za testiranje nulte hipoteze uzet ćemo slučajnu varijablu

(*)

Ova vrijednost je slučajna, jer u različitim eksperimentima unaprijed poprima različite vrijednosti. nepoznate vrijednosti. Jasno je da što se empirijske i teorijske frekvencije manje razlikuju, to je vrijednost kriterija manja i stoga je u određenoj mjeri karakterizira bliskost empirijske i teorijske distribucije.

Dokazano je da kada zakon raspodjele slučajne varijable (*), bez obzira kojem zakonu raspodjele podliježe opća populacija, teži zakonu raspodjele sa stupnjevima slobode. Stoga je slučajna varijabla (*) označena s , a sam kriterij se naziva "hi-kvadrat" test dobrote prilagodbe.

Označimo vrijednost kriterija izračunatu iz podataka promatranja s . Tablične vrijednosti kritičnih kriterija za ovoj razini značaj i broj stupnjeva slobode označavaju . U ovom slučaju, broj stupnjeva slobode određuje se iz jednakosti , gdje je broj grupa (parcijalnih intervala) uzorka ili klasa; - broj parametara očekivane distribucije. Normalna distribucija ima dva parametra - očekivana vrijednost i prosječan standardna devijacija. Stoga se broj stupnjeva slobode za normalnu distribuciju nalazi iz jednakosti

Ako za izračunatu vrijednost i tablična vrijednost nejednakost vrijedi , prihvaća se nulta hipoteza o normalnoj distribuciji stanovništva. Ako , nulta hipoteza se odbacuje i prihvaća se alternativna hipoteza (populacija nije normalno raspoređena).

Komentar. Kada se koristi Pearsonov test usklađenosti, veličina uzorka mora biti najmanje 30. Svaka grupa mora sadržavati najmanje 5 opcija. Ako grupe sadrže manje od 5 frekvencija, one se kombiniraju sa susjednim grupama.

U opći slučaj broj stupnjeva slobode za hi-kvadrat distribuciju dan je izrazom ukupni broj veličine prema kojima se izračunavaju odgovarajući pokazatelji, umanjeni za broj uvjeta koji te veličine povezuju, tj. smanjiti mogućnost varijacije među njima. U najjednostavnijim slučajevima, pri proračunu, broj stupnjeva slobode bit će jednak broju klasa umanjenom za jedan. Tako se, na primjer, dihibridnim cijepanjem dobivaju 4 klase, ali samo prva klasa nije povezana, sljedeće su već povezane s prethodnima. Stoga je za dihibridno cijepanje broj stupnjeva slobode .



Primjer 1. Odrediti stupanj usklađenosti stvarne raspodjele skupina po broju krava s tuberkulozom s teorijski očekivanom, koja je izračunata pri razmatranju normalne raspodjele. Izvorni podaci sažeti su u tablici:

Riješenje.

Prema razini značajnosti i broju stupnjeva slobode iz tablice kritične točke distribucije (vidi Dodatak 4) nalazimo vrijednost . Jer , možemo zaključiti da je razlika između teorijskog i stvarne frekvencije nosi slučajna priroda. Dakle, stvarna raspodjela skupina po broju krava s tuberkulozom odgovara teorijski očekivanoj.

Primjer 2. Teorijska raspodjela po fenotipu jedinki dobivenih u drugoj generaciji dihibridnim križanjem kunića prema Mendelovom zakonu je 9: 3: 3: 1. Potrebno je izračunati podudarnost empirijske distribucije kunića iz križanja crnih jedinki s normalnom dlakom. s paperjastim životinjama – albino. Prilikom križanja u drugoj generaciji dobiveno je 120 potomaka, uključujući 45 crnih s kratkom dlakom, 30 crnih paperjastih kunića, 25 bijelih s kratkom dlakom, 20 bijelih paperjastih kunića.

Riješenje. Teoretski, očekivana segregacija u potomstvu trebala bi odgovarati omjeru četiri fenotipa (9:3:3:1). Izračunajmo teorijske frekvencije (broj golova) za svaku klasu:

9+3+3+1=16, što znači da možemo očekivati ​​da će biti crne kratkodlake ; crni paperje - ; bijela kratkodlaka - ; bijeli paperje - .

Empirijska (stvarna) distribucija fenotipova bila je sljedeća: 45; trideset; 25; 20.

Sažmimo sve te podatke u sljedeću tablicu:

Pomoću Pearsonovog testa dobrog pristajanja izračunavamo vrijednost:

Broj stupnjeva slobode kod dihibridnog križanja. Za razinu značaja pronaći vrijednost . Jer , možemo zaključiti da razlika između teoretskih i stvarnih frekvencija nije slučajna. Posljedično, dobivena skupina kunića odstupa u distribuciji fenotipova od Mendelovog zakona tijekom dihibridnog križanja i odražava utjecaj određenih čimbenika koji mijenjaju tip fenotipske segregacije u drugoj generaciji križanaca.

Pearsonov hi-kvadrat test dobrote prilagodbe također se može koristiti za međusobnu usporedbu dviju homogenih empirijskih distribucija, tj. one koje imaju iste klasne granice. Nulta hipoteza je hipoteza da su dvije nepoznate funkcije distribucije jednake. Hi-kvadrat test u takvim slučajevima određuje se formulom

(**)

gdje su i volumeni raspodjela koje se uspoređuju; i - frekvencije odgovarajućih klasa.

Razmotrimo usporedbu dviju empirijskih distribucija koristeći sljedeći primjer.

Primjer 3. Duljina kukavičjih jaja mjerena je u dvije teritorijalne zone. U prvoj zoni pregledan je uzorak od 76 jaja (), u drugoj od 54 (). Dobiveni su sljedeći rezultati:

Duljina (mm)
Frekvencije
Frekvencije - - -

Na razini značajnosti, moramo testirati nultu hipotezu da oba uzorka jaja pripadaju istoj populaciji kukavica.

MINISTARSTVO OBRAZOVANJA I ZNANOSTI UKRAJINE

AZOVSKI REGIONALNI INSTITUT ZA MENADŽMENT

ZAPORIŽJE NACIONALNO TEHNIČKO SVEUČILIŠTE

Odjel za matematiku

NASTAVNI RAD

3 discipline "STATISTIKA"

Na temu: “KRITERIJI PRISTANE”

studenti 2. godine

Grupa 207 Fakultet za menadžment

Batura Tatyana Olegovna

Znanstveni direktor

Izvanredni profesor Kosenkov O.I.

Berdjansk - 2009


UVOD

1.2 Pearsonov χ 2 test dobrote prilagodbe za jednostavnu hipotezu

1.3 Kriteriji prilagodbe složene hipoteze

1.4 Fisherov χ 2 test dobrote prilagodbe za složenu hipotezu

1.5 Ostali kriteriji pristanka. Testovi prilagodbe za Poissonovu distribuciju

ODJELJAK II. PRAKTIČNA PRIMJENA KRITERIJA SPORAZUMA

PRIMJENE

POPIS KORIŠTENE LITERATURE


UVOD

U ovom kolegiju opisani su najčešći testovi prilagodbe - omega-kvadrat, hi-kvadrat, Kolmogorov i Kolmogorov-Smirnov. Posebna se pozornost posvećuje slučaju kada je potrebno provjeriti pripada li distribucija podataka određenoj parametarskoj obitelji, primjerice normalnoj. Ova situacija, vrlo česta u praksi, zbog svoje složenosti nije u potpunosti proučena i nije u potpunosti prikazana u obrazovnoj i referentnoj literaturi.

Kriteriji prilagodbe su statistički kriteriji osmišljeni za testiranje slaganja između eksperimentalnih podataka i teorijskog modela. Ovo pitanje je najbolje razraditi ako zapažanja predstavljaju nasumični uzorak. Teorijski model u ovom slučaju opisuje zakon distribucije.

Teorijska distribucija je distribucija vjerojatnosti koja upravlja slučajnim odabirom. Ne može samo teorija dati ideje o tome. Izvori znanja ovdje mogu biti i tradicija i prošlo iskustvo, i prethodna opažanja. Samo treba naglasiti da ovu distribuciju treba odabrati bez obzira na podatke prema kojima ćemo je provjeravati. Drugim riječima, neprihvatljivo je prvo “uklopiti” određeni zakon raspodjele na uzorku, a zatim na istom uzorku pokušati provjeriti slaganje s dobivenim zakonom.

Jednostavne i složene hipoteze. Govoreći o teoretskom zakonu raspodjele, koji bi elementi danog uzorka hipotetski trebali slijediti, moramo razlikovati jednostavne i složene hipoteze o tom zakonu:

· jednostavna hipoteza izravno ukazuje na određeni zakon vjerojatnosti (distribuciju vjerojatnosti) prema kojem su nastale vrijednosti uzorka;

· složena hipoteza označava jednu distribuciju, ali neki njihov skup (na primjer, parametarska obitelj).

Kriteriji prikladnosti temelje se na korištenju različitih mjera udaljenosti između analizirane empirijske distribucije i distribucijske funkcije obilježja u populaciji.

Neparametrijski testovi prilagodbe Kolmogorov, Smirnov i omega kvadrat naširoko se koriste. Međutim, oni su također povezani s raširenim pogreškama u primjeni statističkih metoda.

Činjenica je da su navedeni kriteriji razvijeni za testiranje slaganja s potpuno poznatom teoretskom distribucijom. Formule za izračun, tablice distribucija i kritične vrijednosti su široko dostupne. Glavna ideja Kolmogorova, omega kvadrata i sličnih testova je izmjeriti udaljenost između empirijske funkcije distribucije i teorijske funkcije distribucije. Ti se kriteriji razlikuju po vrsti udaljenosti u prostoru funkcija raspodjele.

Početak rada s ovim predmetni rad, postavio sam si cilj saznati koji kriteriji pristanka postoje, shvatiti zašto su potrebni. Da biste postigli ovaj cilj, morate izvršiti sljedeće zadatke:

1. Otkriti bit pojma “kriterija pristanka”;

2. Utvrditi koji kriteriji pristanka postoje i zasebno ih proučiti;

3. Donesite zaključke o obavljenom poslu.


ODJELJAK I. TEORIJSKA POZADINA KRITERIJA PRISTANKA

1.1 Kolmogorov test dobrote prilagodbe i omega-kvadrat u slučaju jednostavne hipoteze

Jednostavna hipoteza. Razmotrimo situaciju u kojoj su izmjereni podaci brojevi, drugim riječima, jednodimenzionalne slučajne varijable. Distribucija jednodimenzionalnih slučajnih varijabli može se u potpunosti opisati zadavanjem njihovih funkcija distribucije. I mnogi testovi prilagodbe temelje se na provjeri bliskosti teoretskih i empirijskih (uzorak) funkcija distribucije.

Pretpostavimo da imamo uzorak od n. Označimo pravu funkciju distribucije kojoj su podložna opažanja, G(x), empirijsku (uzorak) funkciju distribucije, Fn(x), i hipotetsku funkciju distribucije, F(x). Tada je hipoteza H da je prava distribucijska funkcija F(x) zapisana u obliku H: G(·) = F(·).

Kako testirati hipotezu H? Ako je H istinit, tada bi F n i F trebali pokazivati ​​određenu sličnost, a razlika između njih trebala bi se smanjivati ​​kako n raste. Zbog Bernoullijevog teorema, F n (x) → F(x) kao n → ∞. Za kvantificiranje sličnosti funkcija F n i F koriste se različite metode.

Da bi se izrazila sličnost funkcija, može se koristiti jedna ili druga udaljenost između tih funkcija. Na primjer, možete usporediti F n i F u jedinstvenoj metrici, tj. uzeti u obzir vrijednost:

(1.1)

D n statistika naziva se Kolmogorovljeva statistika.

Očito, D n je slučajna varijabla, budući da njezina vrijednost ovisi o slučajnom objektu F n. Ako je hipoteza H 0 istinita i n → ∞, tada je F n (x) → F(x) za bilo koji x. Stoga je prirodno da pod tim uvjetima D n → 0. Ako je hipoteza H 0 netočna, tada je F n → G i G ≠ F, pa je sup -∞

Kao i uvijek kada testiramo hipotezu, razmišljamo kao da je hipoteza istinita. Jasno je da H 0 treba odbaciti ako se eksperimentalno dobivena vrijednost statistike D n čini nevjerojatno velikom. Ali da biste to učinili, morate znati kako su statistike D n raspoređene pod hipotezom H: F = G za dane n i G.

Izvanredno svojstvo D n je da ako je G = F, tj. ako je hipotetska distribucija točno specificirana, tada se zakon distribucije statistike D n pokazuje istim za sve kontinuirane funkcije G. Ovisi samo o veličini uzorka n.

Dokaz ove činjenice temelji se na činjenici da statistika ne mijenja svoju vrijednost pod monotonim transformacijama x-osi. Tom se transformacijom svaka kontinuirana distribucija G može pretvoriti u jednoliku distribuciju na intervalu. U ovom slučaju, F n (x) će se pretvoriti u funkciju distribucije uzorka iz ove uniformne distribucije.

Za male n, tablice postotnih bodova sastavljene su za statistiku D n pod hipotezom H 0. Za veliko n, raspodjela D n (pod hipotezom H 0) je naznačena graničnim teoremom koji je 1933. pronašao A.N.Kolmogorov. Ona govori o statistici

(kako je sama vrijednost D n → 0 pri H 0 potrebno ju je pomnožiti s neograničeno rastućom vrijednošću da bi se distribucija stabilizirala). Kolmogorovljev teorem kaže da ako je H 0 istinit i ako je G kontinuiran:
(1.2)

Ovaj iznos je vrlo lako izračunati u Mapleu. Za testiranje jednostavne hipoteze H 0: G = F potrebno je izračunati vrijednost statistike D n iz izvornog uzorka. Za to funkcionira jednostavna formula.

Definicija 51. Kriteriji koji vam omogućuju da procijenite jesu li vrijednosti dosljedne x 1 , x 2 ,…, x n nasumična varijabla x s hipotezom o njegovoj distribucijskoj funkciji nazivaju se kriteriji pristanka.

Ideja korištenja kriterija pristanka

Neka se hipoteza testira na temelju ovog statističkog materijala N, koji se sastoji u činjenici da je SV x pridržava se određenog zakona distribucije. Ovaj zakon se može odrediti ili kao distribucijska funkcija F(x), ili u obliku gustoće distribucije f(x), ili kao skup vjerojatnosti p i. Budući da od svih ovih oblika funkcija distribucije F(x) je najopćenitiji (postoji i za DSV i za NSV) i određuje sve druge, mi ćemo formulirati hipotezu N, kao što se sastoji u činjenici da je količina x ima distribucijsku funkciju F(x).

Prihvatiti ili odbaciti hipotezu N, razmislite o nekoj količini U, koji karakterizira stupanj divergencije (odstupanja) teorijske i statističke distribucije. VeličinaU mogu se birati na razne načine: 1) zbroj kvadrata odstupanja teoretskih vjerojatnosti p i od odgovarajućih frekvencija, 2) zbroj istih kvadrata s nekim koeficijentima (težinama), 3) maksimalno odstupanje statističke (empirijske) funkcije distribucije od teorijske F(x).

Neka vrijednost U izabrani na ovaj ili onaj način. Očito, ovo je neka slučajna varijabla. Zakon raspodjele U ovisi o zakonu raspodjele slučajne varijable x, na kojim su pokusima provedeni te o broju pokusa n. Ako hipoteza N je istina, onda je zakon raspodjele količine U određena zakonom raspodjele količine x(funkcija F(x)) i broj n.

Pretpostavimo da je taj zakon raspodjele poznat. Kao rezultat ove serije eksperimenata, otkriveno je da odabrana mjera odstupanja U poprimilo neko značenje u. Pitanje: može li se to objasniti slučajnim razlozima ili ovo neslaganje je također je velika i ukazuje na postojanje značajne razlike između teorijske i statističke (empirijske) distribucije i, prema tome, neprikladnost hipoteze N? Da bismo odgovorili na ovo pitanje, pretpostavimo da je hipoteza N je točna, a pod tom pretpostavkom izračunavamo vjerojatnost da će, zbog slučajnih razloga povezanih s nedovoljnom količinom eksperimentalnog materijala, mjera odstupanja U neće biti manja od eksperimentalno promatrane vrijednosti u, odnosno izračunavamo vjerojatnost događaja: .

Ako je ta vjerojatnost mala, tada hipoteza N treba odbaciti kao malo vjerojatan, ali ako je ta vjerojatnost značajna, tada zaključujemo da eksperimentalni podaci nisu u suprotnosti s hipotezom N.

Postavlja se pitanje kako odabrati mjeru odstupanja (odstupanja)? U? Ispada da s nekim metodama odabira, zakon raspodjele količine U ima vrlo jednostavna svojstva i s dovoljno velikim n praktički neovisno o funkciji F(x). Upravo se te mjere odstupanja koriste u matematičkoj statistici kao kriteriji slaganja.

Definicija 51/. Kriterij slaganja je kriterij za provjeru hipoteze o pretpostavljenom zakonu nepoznate distribucije.

Za kvantitativne podatke s distribucijama bliskim normalnim, koristite parametarski metode temeljene na pokazateljima kao što su matematičko očekivanje i standardna devijacija. Konkretno, za određivanje pouzdanosti razlike srednjih vrijednosti za dva uzorka koristi se Studentova metoda (kriterij), a kako bi se procijenile razlike između tri ili više uzoraka, test F, odnosno analiza varijance. Ako imamo posla s nekvantitativnim podacima ili su uzorci premali da bismo bili sigurni da populacije iz kojih su uzeti slijede normalnu distribuciju, tada upotrijebimo neparametarski metode – kriterij χ 2(hi-kvadrat) ili Pearson za kvalitativne podatke i znakove, rangove, Mann-Whitney, Wilcoxon itd. testove za redne podatke.

Osim toga, izbor statističke metode ovisi o tome jesu li uzorci čije se srednje vrijednosti uspoređuju nezavisna(tj. npr. uzeti iz dvije različite skupine ispitanika) ili ovisan(tj. odražavajući rezultate iste skupine subjekata prije i poslije izlaganja ili nakon dva različita izlaganja).

str. 1. Pearsonov test (- hi-kvadrat)

Neka se proizvodi n nezavisni eksperimenti, u svakom od kojih je slučajna varijabla X poprimila određenu vrijednost, odnosno dat je uzorak opažanja slučajne varijable x(opća populacija) volume n. Razmotrimo zadatak provjere blizine teorijske i empirijske funkcije distribucije za diskretnu distribuciju, odnosno potrebno je provjeriti jesu li eksperimentalni podaci u skladu s hipotezom N 0, navodeći da je slučajna varijabla x ima zakon distribucije F(x) na razini značajnosti α . Nazovimo ovaj zakon “teorijskim”.

Prilikom dobivanja kriterija dobrog uklapanja za testiranje hipoteze, odredite mjeru D odstupanja empirijske funkcije distribucije danog uzorka od procijenjene (teorijske) funkcije distribucije F(x).

Najčešće korištena mjera je ona koju je uveo Pearson. Razmotrimo ovu mjeru. Podijelimo skup vrijednosti slučajne varijable x na r skupovi – skupine S 1 , S 2 ,…, S r, bez dodirnih točaka. U praksi se takva podjela provodi pomoću ( r- 1) brojevi c 1 < c 2 < … < c r-1 . U tom slučaju, kraj svakog intervala je isključen iz odgovarajućeg skupa, a lijevi je uključen.

S 1 S 2 S 3 …. S r -1 S r

c 1 c 2 c 3 c r -1

Neka p i, , - vjerojatnost da SV x pripada skupu S i(očito). Neka n i, , - broj vrijednosti (varijanti) među opservablama koje pripadaju skupu S i(empirijske frekvencije). Zatim relativna učestalost SV pogodaka x u mnogim S i na n zapažanja. Očito je da ,.

Za gornju podjelu, p i postoji prirast F(x) na setu S i, a prirast je na istom skupu. Sažmimo rezultate pokusa u tablicu u obliku grupiranog statističkog niza.

Granice grupe Relativna frekvencija
S 1:x 1 – x 2
S 2: x 2 – x 3
S r: x rx r +1

Poznavajući teorijski zakon distribucije, možete pronaći teorijske vjerojatnosti da slučajna varijabla padne u svaku grupu: R 1 , R 2 , …, p r. Pri provjeri konzistentnosti teorijske i empirijske (statističke) distribucije poći ćemo od odstupanja između teorijskih vjerojatnosti p i i promatrane frekvencije.

Za mjeru D odstupanja (odstupanja) empirijske funkcije distribucije od teorijske uzimaju zbroj kvadrata odstupanja teorijskih vjerojatnosti p i iz odgovarajućih frekvencija uzetih s određenim "težinama" c i: .

Izgledi c i uvode se zato što se, u općem slučaju, odstupanja koja pripadaju različitim skupinama ne mogu smatrati jednakom u značaju: odstupanje iste apsolutne vrijednosti može biti od malog značaja ako sama vjerojatnost p i je velika, a vrlo uočljiva ako je mala. Stoga, naravno, "utezi" c i uzeti obrnuto proporcionalno vjerojatnostima. Kako odabrati ovaj koeficijent?

K. Pearson pokazao je da ako stavimo , onda za veliki n zakon raspodjele količine U ima vrlo jednostavna svojstva: praktički je neovisan o funkciji raspodjele F(x) i na broj pokusa n, ali ovisi samo o broju grupa r, naime, ovaj zakon s povećanjem n približava se takozvanoj hi-kvadrat distribuciji .

Ako trebate dodatne materijale o ovoj temi ili niste pronašli ono što ste tražili, preporučamo pretraživanje naše baze radova:

Što ćemo učiniti s primljenim materijalom:

Ako vam je ovaj materijal bio koristan, možete ga spremiti na svoju stranicu na društvenim mrežama:

Za provjeru hipoteze o podudarnosti empirijske distribucije s teorijskim zakonom distribucije koriste se posebni statistički pokazatelji - kriteriji usklađenosti (ili kriteriji sukladnosti). Tu spadaju kriteriji Pearsona, Kolmogorova, Romanovskog, Yastremskog itd. Većina kriterija slaganja temelji se na korištenju odstupanja empirijskih frekvencija od teoretskih. Očito, što su ta odstupanja manja, to teorijska distribucija bolje odgovara empirijskoj (ili je opisuje).

Kriteriji pristanka- ovo su kriteriji za testiranje hipoteza o podudarnosti empirijske distribucije s teoretskom distribucijom vjerojatnosti. Takvi se kriteriji dijele u dvije klase: opće i posebne. Opći testovi usklađenosti primjenjuju se na najopćenitiju formulaciju hipoteze, naime, na hipotezu da se promatrani rezultati slažu s bilo kojom a priori pretpostavljenom distribucijom vjerojatnosti. Posebni testovi prilagodbe uključuju posebne nulte hipoteze koje pokazuju slaganje s određenim oblikom distribucije vjerojatnosti.

Kriteriji slaganja, temeljeni na utvrđenom zakonu raspodjele, omogućuju utvrđivanje kada se odstupanja između teorijskih i empirijskih učestalosti smatraju beznačajnim (slučajnim), a kada - značajnim (neslučajnim). Iz ovoga slijedi da kriteriji slaganja omogućuju odbacivanje ili potvrdu točnosti postavljene hipoteze pri usklađivanju niza o prirodi distribucije u empirijskom nizu i odgovor na to je li moguće prihvatiti za danu empirijsku distribuciju model izražen nekim teorijskim zakonom raspodjele.

Pearsonov test prilagodbe c 2 (hi-kvadrat) je jedan od glavnih kriterija za slaganje. Predložio engleski matematičar Karl Pearson (1857.-1936.) za procjenu slučajnosti (značajnosti) odstupanja između učestalosti empirijskih i teorijskih distribucija:

Shema primjene kriterija c 2 za ocjenu konzistentnosti teorijskih i empirijskih distribucija svodi se na sljedeće:

1. Određuje se izračunata mjera odstupanja.

2. Određuje se broj stupnjeva slobode.

3. Na temelju broja stupnjeva slobode n, pomoću posebne tablice, određuje se.

4. Ako je , tada se za zadanu razinu značajnosti α i broj stupnjeva slobode n hipoteza o beznačajnosti (slučajnosti) odstupanja odbacuje. U suprotnom, hipoteza se može prepoznati kao neproturječna s dobivenim eksperimentalnim podacima i s vjerojatnošću (1 – α) može se tvrditi da su odstupanja između teoretskih i empirijskih učestalosti slučajna.

Razina značajnosti je vjerojatnost pogrešnog odbacivanja postavljene hipoteze, tj. vjerojatnost da će ispravna hipoteza biti odbačena. U statističkim istraživanjima, ovisno o važnosti i odgovornosti problema koji se rješavaju, koriste se sljedeće tri razine značajnosti:

1) a = 0,1, tada R = 0,9;

2) a = 0,05, tada R = 0,95;

3) a = 0,01, tada R = 0,99.

Koristeći kriterij slaganja c 2, moraju biti ispunjeni sljedeći uvjeti:

1. Opseg populacije koja se proučava mora biti dovoljno velik ( N≥ 50), dok frekvencija ili veličina grupe mora biti najmanje 5. Ako je ovaj uvjet prekršen, potrebno je prvo kombinirati male frekvencije (manje od 5).

2. Empirijska distribucija mora se sastojati od podataka dobivenih kao rezultat slučajnog uzorkovanja, tj. moraju biti neovisni.

Nedostatak Pearsonovog kriterija prilagodbe je gubitak nekih izvornih informacija povezanih s potrebom grupiranja rezultata promatranja u intervale i kombiniranja pojedinačnih intervala s malim brojem promatranja. S tim u vezi, preporučuje se provjeru usklađenosti distribucije prema kriteriju dopuniti s još 2 kriterija. Ovo je posebno potrebno kod relativno male veličine uzorka ( n ≈ 100).

U statistici Kolmogorov test prilagodbe(također poznat kao Kolmogorov-Smirnov test prilagodbe) koristi se za određivanje pridržavaju li se dvije empirijske distribucije istom zakonu ili za određivanje pridržava li se rezultirajuća distribucija pretpostavljeni model. Kolmogorov kriterij temelji se na određivanju maksimalnog odstupanja između akumuliranih frekvencija ili učestalosti empirijskih ili teorijskih distribucija. Kolmogorov kriterij izračunava se pomoću sljedećih formula:

Gdje D I d- prema tome, najveća razlika između akumuliranih frekvencija ( ff¢) i između akumuliranih frekvencija ( strstr¢) empirijski i teorijski nizovi distribucija; N- broj jedinica u agregatu.

Nakon izračuna vrijednosti λ, posebnom tablicom utvrđuje se vjerojatnost s kojom se može ustvrditi da su odstupanja empirijskih frekvencija od teoretskih slučajna. Ako znak poprima vrijednosti do 0,3, to znači da postoji potpuna podudarnost frekvencija. S velikim brojem promatranja, Kolmogorov test može otkriti svako odstupanje od hipoteze. To znači da će svaka razlika u distribuciji uzorka od teorijske biti detektirana uz njegovu pomoć ako postoji dovoljno velik broj promatranja. Praktični značaj ovog svojstva nije značajan, budući da je u većini slučajeva teško računati na dobivanje velikog broja opažanja u stalnim uvjetima, teorijska ideja zakona distribucije kojem se uzorak treba pridržavati uvijek je približna, a točnost statističkih testova ne smije premašiti točnost odabranog modela.

Romanovskyjev test prilagodbe temelji se na korištenju Pearsonovog kriterija, tj. već pronađene vrijednosti c 2 i broj stupnjeva slobode:

gdje je n broj stupnjeva slobode varijacije.

Kriterij Romanovsky je prikladan u nedostatku tablica za. Ako< 3, то расхождения распределений случайны, если же >3, onda oni nisu slučajni i teorijska distribucija ne može poslužiti kao model za empirijsku distribuciju koja se proučava.

B. S. Yastremsky koristio je u kriteriju slaganja ne broj stupnjeva slobode, već broj grupa ( k), posebna vrijednost q, ovisno o broju grupa, i vrijednost hi-kvadrat. Yastremskijev test prilagodbe ima isto značenje kao kriterij Romanovskog i izražava se formulom

gdje je c 2 Pearsonov kriterij prilagodbe; - broj grupa; q - koeficijent, za broj grupa manji od 20, jednak 0,6.

Ako Lčinjenica > 3, odstupanja između teoretskih i empirijskih distribucija nisu slučajna, tj. empirijska distribucija ne zadovoljava zahtjeve normalne distribucije. Ako Lčinjenica< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Hipoteza koja se testira obično se naziva nulta hipoteza. H0, pravilo po kojem se hipoteza prihvaća ili odbacuje naziva se statistički kriterij. Statistički kriteriji, koji služe za provjeru hipoteza o obliku zakona distribucije nazivaju se kriteriji dobrog pristajanja. Oni. kriteriji slaganja određuju kada su stvarno dobivene razlike između pretpostavljenih teoretskih i eksperimentalnih distribucija: beznačajne – slučajne, a kada su značajne – neslučajne.

Razmotrimo slučajnu varijablu koja karakterizira vrstu ili funkciju odstupanja između očekivane teorijske i eksperimentalne distribucije atributa, zatim iz postojeće eksperimentalne distribucije možemo odrediti vrijednost a, koju je slučajna varijabla poprimila, ako je poznat njezin zakon distribucije, tada nije teško pronaći vjerojatnost da će slučajna varijabla poprimiti vrijednost ne manju od a. Ako vrijednost a dobiven kao rezultat promatranja slučajne varijable x, tj. kada je karakteristika koja se razmatra raspodijeljena prema pretpostavljenom teoretskom zakonu, tada vjerojatnost ne bi trebala biti mala. Ako se vjerojatnost pokaže malom, onda se to objašnjava činjenicom da stvarna dobivena vrijednost nije slučajna varijabla x, i neki drugi s drugačijim zakonom raspodjele, tj. karakteristika koja se proučava nije raspoređena prema očekivanom zakonu. Dakle, u slučaju kada razlika između empirijske i teorijske distribucije nije mala, treba je smatrati neznačajnom – slučajnom, a eksperimentalna i teorijska distribucija nisu kontradiktorne, tj. dosljedne jedna drugoj.

Ako je vjerojatnost mala, tada su razlike između eksperimentalne i teorijske distribucije značajne, ne mogu se objasniti slučajnošću, a hipotezu o distribuciji obilježja prema pretpostavljenom teoretskom zakonu treba smatrati nepotvrđenom, ne slaže se s eksperimentalnim podacima. Potrebno je pažljivo proučiti eksperimentalne podatke i pokušati pronaći novi zakon o kvaliteti predložene značajke, koja bi bolje i potpunije odražavala značajke eksperimentalne distribucije, takve se vjerojatnosti smatraju malima i ne prelaze 0,1.

Pearsonovi testovi ili kriteriji podesnostic 2 .

Neka analiza eksperimentalnih podataka dovede do odabira određenog zakona raspodjele kao što je pretpostavljeno za razmatranu karakteristiku, a prema eksperimentalnim podacima kao rezultat n-promatranja, pronađeni su parametri (ako ranije nisu bili poznati). Označimo sa n i- empirijske frekvencije slučajne varijable x.

n×P i-teorijske frekvencije koje predstavljaju umnožak broja opažanja n na vjerojatnost P i- izračunato prema pretpostavljenoj teoretskoj raspodjeli. Kriteriji pristanka c 2 mjera odstupanja između teoretskog i empirijskog niza učestalosti se uzima kao


;

c 2- količina tzv c 2 distribucija ili Pearsonova distribucija. Jednaka je 0 samo kada se sve empirijske i teorijske frekvencije poklapaju; u ostalim slučajevima je različita od 0 i što je veća razlika između navedenih frekvencija, to je veća razlika. Dokazano je da odabrana karakteristika c 2 ili statistika za n®¥ ima Pearsonovu distribuciju sa stupnjevima slobode

k=m-s- 1.

Gdje m-broj intervala empirijske distribucije varijacijske serije ili broj grupa.

s-broj parametara teorijske razdiobe utvrđen iz eksperimentalnih podataka (na primjer, u slučaju normalne razdiobe, broj parametara procijenjen iz uzorka je 2).

Shema za primjenu kriterija je sljedeća:

1. Na temelju eksperimentalnih podataka odabrati zakon raspodjele karakteristike kao očekivani i pronaći njegove parametre.

2. Pomoću dobivene distribucije određuju se teorijske frekvencije koje odgovaraju eksperimentalnim frekvencijama.

3. Male eksperimentalne frekvencije, ako ih ima, kombiniraju se sa susjednim, tada se vrijednost određuje pomoću formule c 2 .

4. Odrediti broj stupnjeva slobode k .

5. Iz tablica primjene za odabranu razinu značajnosti a pronaći kritičnu vrijednost kada je broj stupnjeva slobode jednak k .

6. Formuliramo zaključak na temelju opći princip primjena kriterija slaganja, naime, ako je vjerojatnost >0,01, tada se postojeća odstupanja između teoretskih i eksperimentalnih frekvencija smatraju beznačajnima.

Ako je stvarna promatrana vrijednost veća od kritične vrijednosti, tada H0 odbaciti ako hipoteza nije u suprotnosti s eksperimentalnim podacima. Kriterij c 2 daje zadovoljavajuće rezultate ako postoji dovoljan broj opažanja u svakom intervalu grupiranja n i .

Napomena: Ako u bilo kojem intervalu broj opažanja<5, то имеет смысл объединить соседние интервалы с тем, чтобы в объединенных интервалах n i nije bio manji od 5. Štoviše, pri izračunavanju broja stupnjeva slobode k kao m- uzima se odgovarajući smanjeni broj intervala.

Dobivena je sljedeća raspodjela 100 radnika radionice prema proizvodnji u izvještajnoj godini

(u % prethodne godine).