Biografier Kjennetegn Analyse

Eksempler på Pearson-distribusjon. Tester hypotesen om normalfordelingen av den generelle befolkningen i henhold til Pearson-kriteriet

Vurder søknaden iMSUTMERKEPearsons kjikvadrattest for å teste enkle hypoteser.

Etter å ha mottatt eksperimentelle data (dvs. når det er noen prøve) vanligvis velges en distribusjonslov som best beskriver den tilfeldige variabelen representert av den gitte prøvetaking. Kontroll av hvor godt de eksperimentelle dataene er beskrevet av den valgte teoretiske distribusjonsloven utføres vha samtykkekriterier. nullhypotesen, vanligvis hypotesen om likhet i distribusjon tilfeldig variabel noen teoretisk lov.

La oss først se på applikasjonen Pearsons godhet-of-fit test X 2 (chi-kvadrat) i forhold til enkle hypoteser (parametrene til den teoretiske fordelingen antas å være kjent). Deretter - , når bare distribusjonsformen er spesifisert, og parametrene for denne fordelingen og verdien statistikk X 2 er estimert/beregnet ut fra det samme prøver.

Merk: I engelskspråklig litteratur, søknadsprosedyren Pearsons godhet-of-fit test X 2 har et navn Chi-square godhet til passform test.

Husk prosedyren for å teste hypoteser:

  • basert prøver verdien beregnes statistikk, som tilsvarer typen hypotese som testes. For eksempel å bruke t-statistikk(hvis ikke kjent);
  • underlagt sannheten nullhypotesen, fordelingen av dette statistikk kjent og kan brukes til å beregne sannsynligheter (for eksempel for t- statistikk dette er );
  • beregnet ut fra prøver betydning statistikk sammenlignet med den kritiske verdien for den gitte verdien ();
  • nullhypotesen avvist hvis verdien statistikk større enn kritisk (eller hvis sannsynligheten for å få denne verdien statistikk() mindre Signifikansnivå, som er den tilsvarende tilnærmingen).

La oss bruke hypotesetesting for ulike distribusjoner.

Diskret sak

Anta at to personer spiller terninger. Hver spiller har sitt eget sett med terninger. Spillerne bytter på å kaste 3 terninger samtidig. Hver runde vinnes av den som kaster flere seksere om gangen. Resultatene blir registrert. En av spillerne hadde etter 100 runder en mistanke om at beinene til motstanderen hans ikke var symmetriske, fordi. han vinner ofte (kaster ofte seksere). Han bestemte seg for å analysere hvor sannsynlige et slikt antall motstanders utfall er.

Merk: Fordi 3 terninger, så kan du kaste 0 om gangen; en; 2 eller 3 seksere, dvs. tilfeldig variabel kan ha 4 verdier.

Fra sannsynlighetsteorien vet vi at hvis kubene er symmetriske, så adlyder sannsynligheten for at seksere faller ut. Derfor, etter 100 runder, kan frekvensene til seksere beregnes ved hjelp av formelen
=BINOM.FORDELING(A7;3;1/6;USANN)*100

Formelen forutsetter at cellen A7 inneholder tilsvarende antall tapte seksere i en runde.

Merk: Beregninger er gitt i eksempelfil på ark Diskret.

Til sammenligning observert(Observert) og teoretiske frekvenser(Forventet) praktisk å bruke.

Med et betydelig avvik fra de observerte frekvensene fra den teoretiske fordelingen, nullhypotesen om fordelingen av en stokastisk variabel etter en teoretisk lov, bør forkastes. Det vil si hvis terning motstander er asymmetriske, vil de observerte frekvensene være "vesentlig forskjellig" fra binomial fordeling.

I vårt tilfelle, ved første øyekast, er frekvensene ganske nærme, og det er vanskelig å trekke en entydig konklusjon uten beregninger. Aktuelt Pearsons godhetstest X 2, slik at i stedet for det subjektive utsagnet "vesentlig annerledes", som kan gjøres på grunnlag av sammenligning histogrammer, bruk et matematisk riktig utsagn.

La oss bruke det faktum at lov store tall observert frekvens (Observert) med økende volum prøver n har en tendens til sannsynligheten som tilsvarer den teoretiske loven (i vårt tilfelle, binomial lov). I vårt tilfelle er prøvestørrelsen n 100.

La oss introdusere test statistikk, som vi betegner med X 2:

hvor O l er den observerte frekvensen av hendelser som den stokastiske variabelen har tatt visse tillatte verdier, El er den tilsvarende teoretiske frekvensen (Forventet). L er antall verdier som en tilfeldig variabel kan ta (i vårt tilfelle er den lik 4).

Som man kan se av formelen, dette statistikk er et mål på hvor nærhet de observerte frekvensene har til de teoretiske, dvs. den kan brukes til å estimere "avstandene" mellom disse frekvensene. Hvis summen av disse "avstandene" er "for store", så er disse frekvensene "vesentlig forskjellige". Det er klart at hvis kuben vår er symmetrisk (dvs. aktuelt binomial lov), da vil sannsynligheten for at summen av "avstander" blir "for stor" være liten. For å beregne denne sannsynligheten må vi kjenne fordelingen statistikk X 2 ( statistikk X 2 beregnet basert på tilfeldig prøver, så det er en tilfeldig variabel og har derfor sin egen sannsynlighetsfordeling).

Fra en flerdimensjonal analog integralteorem Moivre-Laplace det er kjent at for n->∞ er vår stokastiske variabel X 2 asymptotisk med L - 1 frihetsgrader.

Så hvis den beregnede verdien statistikk X 2 (summen av "avstandene" mellom frekvenser) vil være mer enn en viss grenseverdi, da vil vi ha grunn til å avvise nullhypotesen. Som ved kontroll parametriske hypoteser, settes grenseverdien via Signifikansnivå. Hvis sannsynligheten for at statistikken X 2 vil ha en verdi mindre enn eller lik den beregnede ( s-betydning) vil være mindre Signifikansnivå, deretter nullhypotesen kan avvises.

I vårt tilfelle er den statistiske verdien 22.757. Sannsynligheten for at X 2-statistikken tar en verdi større enn eller lik 22,757 er svært liten (0,000045) og kan beregnes ved hjelp av formlene
=XI2.DIST.PX(22,757;4-1) eller
=XI2.TEST(Observert; Forventet)

Merk: CH2.TEST()-funksjonen er spesielt utviklet for å teste forholdet mellom to kategoriske variabler (se ).

Sannsynligheten for 0,000045 er betydelig mindre enn vanlig Signifikansnivå 0,05. Så spilleren har all grunn til å mistenke motstanderen sin for uærlighet ( nullhypotesen om hans ærlighet nektes).

Ved bruk kriterium X 2 man må passe på at volumet prøver n var stor nok, ellers ville tilnærmingen til fordelingen være ugyldig statistikk X 2. Det anses vanligvis at det for dette er tilstrekkelig at de observerte frekvensene (Observert) er større enn 5. Hvis dette ikke er tilfelle, kombineres lave frekvenser til én eller kobles sammen med andre frekvenser, og den kombinerte verdien tildeles totalen. sannsynlighet og følgelig reduseres antallet frihetsgrader X 2 -fordeling.

For å forbedre kvaliteten på søknaden kriterium X 2(), er det nødvendig å redusere partisjoneringsintervallene (øk L og øk deretter antallet grader av frihet), men dette forhindres av en begrensning på antall observasjoner som faller inn i hvert intervall (d.b.>5).

kontinuerlig sak

Pearson godhet-of-fit test X 2 kan brukes på samme måte ved .

Vurder noen prøvetaking, bestående av 200 verdier. Nullhypotesen stater som prøve laget av .

Merk: Tilfeldige variabler i prøvefil på ark Kontinuerlig generert ved hjelp av formelen =NORM.ST.INV(RAND()). Derfor nye verdier prøver genereres hver gang arket beregnes på nytt.

Hvorvidt det tilgjengelige datasettet er tilstrekkelig kan vurderes visuelt.

Som du kan se av diagrammet, passer prøveverdiene ganske godt langs den rette linjen. Imidlertid, som for hypotesetesting aktuelt Pearsons godhetstest X 2 .

For å gjøre dette deler vi variasjonsområdet til en tilfeldig variabel i intervaller med et trinn på 0,5. La oss beregne de observerte og teoretiske frekvensene. Vi beregner de observerte frekvensene ved å bruke FREQUENCY()-funksjonen, og de teoretiske - ved å bruke NORM.ST.DIST()-funksjonen.

Merk: Når det gjelder diskret tilfelle, er det nødvendig å sikre det prøve var ganske stor, og mer enn 5 verdier falt inn i intervallet.

Beregn statistikken X 2 og sammenlign den med den kritiske verdien for en gitt Signifikansnivå(0,05). Fordi vi delte variasjonsområdet til en tilfeldig variabel inn i 10 intervaller, så er antallet frihetsgrader 9. Den kritiske verdien kan beregnes med formelen
\u003d XI2.INV.RH (0,05; 9) eller
\u003d XI2.OBR (1-0,05; 9)

Diagrammet over viser at den statistiske verdien er 8,19, som er betydelig høyere kritisknullhypotesen blir ikke avvist.

Nedenfor står på hvilken prøve antatt en usannsynlig verdi, og på grunnlag av kriterier Pearsons samtykke X 2 nullhypotesen ble avvist (til tross for at tilfeldige verdier ble generert ved hjelp av formelen =NORM.ST.INV(RAND()) gir prøvetaking fra standard normalfordeling).

Nullhypotesen avvist, selv om dataene visuelt er ganske nær en rett linje.

Som et eksempel, la oss også ta prøvetaking fra U(-3; 3). I dette tilfellet, selv fra grafen er det klart at nullhypotesen må avvises.

Kriterium Pearsons samtykke X 2 bekrefter også det nullhypotesen må avvises.

ODA Kriteriet for å teste hypotesen om den foreslåtte loven om den ukjente fordelingen kalles goodness-of-fit-kriteriet.

Det er flere godhetskriterier: $\chi ^2$ (chi-kvadrat) av K. Pearson, Kolmogorov, Smirnov og andre.

Vanligvis er teoretiske og empiriske frekvenser forskjellige. Tilfellet av avvik er kanskje ikke tilfeldig, noe som betyr at det forklares med at hypotesen ikke er riktig valgt. Pearson-kriteriet svarer på spørsmålet, men som ethvert kriterium beviser det ikke noe, men fastslår bare dets enighet eller uenighet med observasjonsdataene på det aksepterte signifikansnivået.

ODA En tilstrekkelig liten sannsynlighet for at en hendelse kan anses som nesten umulig kalles signifikansnivået.

I praksis er det vanlig å ta signifikansnivåer mellom 0,01 og 0,05, hvor $\alpha =0,05$ er $5 ( \% ) $ signifikansnivået.

Som et kriterium for å teste hypotesen tar vi verdien \begin(equation) \label ( eq1 ) \chi ^2=\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) \ qquad (1) \ end(ligning)

her $n_i -$ empiriske frekvenser hentet fra prøven, $n_i" -$ teoretiske frekvenser funnet teoretisk.

Det er bevist at for $n\to \infty $ fordelingsloven til den tilfeldige variabelen ( 1 ) uavhengig av fordelingsloven befolkning, har en tendens til loven $\chi ^2$ ( chi-square ) med $k$ frihetsgrader.

ODA Antall frihetsgrader er funnet ved ligningen $k=S-1-r$ der $S-$ er antall intervallgrupper, $r-$ er antall parametere.

1) jevn fordeling: $r=2, k=S-3 $

2) normal distribusjon: $r=2, k=S-3 $

3) eksponentiell distribusjon: $r=1, k=S-2$.

regel . Tester hypotesen ved Pearsons kriterium.

  1. For å teste hypotesen, regn ut de teoretiske frekvensene og finn $\chi _ ( obs ) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $
  2. I følge tabellen kritiske punkter$\chi ^2$ fordelinger etter gitt signifikansnivå $\alpha $ og antall frihetsgrader $k$ finnes $\chi _ ( kr ) ^2 (( \alpha ,k ))$.
  3. Hvis $\chi _ ( obs ) ^2<\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

Kommentar For å kontrollere beregninger, bruk formelen for $\chi ^2$ i formen $\chi _ ( obs ) ^2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) $

Testing av hypotesen om enhetlig distribusjon

Tetthetsfunksjonen til den ensartede fordelingen av $X$ har formen $f(x)=\frac ( 1 ) ( b-a ) x\in \left[ ( a,b )\right]$.

For å teste hypotesen om at en kontinuerlig tilfeldig variabel er jevnt fordelt på et signifikansnivå på $\alpha $, kreves det:

1) Finn prøvegjennomsnittet $\overline ( x_b ) $ og $\sigma _b =\sqrt ( D_b ) $ fra den gitte empiriske fordelingen. Ta som et estimat av parametrene $a$ og $b$ mengdene

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Finn sannsynligheten for at en tilfeldig variabel $X$ faller inn i partielle intervaller $(( x_i ,x_ ( i+1 ) ))$ ved å bruke formelen $ P_i =P(( x_i)

3) Finn de teoretiske (utjevnende) frekvensene ved å bruke formelen $n_i" =np_i $.

4) Forutsatt antall frihetsgrader $k=S-3$ og signifikansnivået $\alpha =0,05$ fra tabellene $\chi ^2$, finner vi $\chi _ ( cr ) ^2 $ fra gitt $\alpha $ og $k$, $\chi _ ( cr ) ^2 (( \alpha ,k ))$.

5) Ved å bruke formelen $\chi _ ( obs ) ^2 =\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $ hvor $n_i er $ empiriske frekvenser, finner vi de observerte verdi $\ chi _ ( obs ) ^2 $.

6) Hvis $\chi _ ( obs ) ^2<\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

La oss teste hypotesen på vårt eksempel.

1) $\overline x _b =13.00\,\,\sigma _b =\sqrt ( D_b ) = 6.51$

2) $a=13.00-\sqrt 3 \cdot 6.51=13.00-1.732\cdot 6.51=1.72468$

$b=13.00+1.732\cdot 6.51=24.27532$

$b-a=24,27532-1,72468=22,55064$

3) $P_i =P(( x_i

$P_2 =((3

$P_3 =((7

$P_4 =((11

$P_5 =((15

$P_6 =((19

I en enhetlig fordeling, hvis lengden på intervallet er den samme, så er $P_i -$ de samme.

4) Finn $n_i" =np_i $.

5) Finn $\sum ( \frac ( (( n_i -n_i" ))^2 ) ( n_i" ) ) $ og finn $\chi _ ( obs ) ^2 $.

La oss legge alle de oppnådde verdiene i tabellen

\begin(array) ( |l|l|l|l|l|l|l| ) \hline i& n_i & n_i" =np_i & n_i -n_i" & (( n_i -n_i"))^2& \frac ( (( n_i -n_i")^2 ) ( n_i") & Control~ \frac ( n_i^2 ) ( n_i" ) \\ \hline 1& 1& 4.43438& -3.43438& 11.7950& 2.659828& 5 2.& 51. 4.43438 & 1.56562 & 2.45117 & 0.552765 & 8.11838 \\ \ Hline 3 & 3 & 4.43438 & -1.43438 & 2.05744 og334303430303030303030303030303030303030303030303030303030303030303030303030. 1.56562& 2.45117& 0.552765& 8.11838 \\ \hline 6& 6& 4.43438& 1.562 45117& 0.552765& 8.11838 \\ \hline 6& & chi = 1 = 3 2 =\sum ( \frac ( n_i^2 ) ( n_i" ) -n ) =3,63985 \\ \hline \end(array)

$\chi _ ( cr ) ^2 (( 0.05.3 ))=7.8$

$\chi _ ( obs ) ^2<\chi _ { кр } ^2 =3,26<7,8$

Konklusjon det er ingen grunn til å forkaste hypotesen.

Hensikten med kriterium χ 2 - Pearsons kriterium Kriterium χ 2 brukes til to formål: 1) å sammenligne den empiriske fordelingen av et trekk med det teoretiske - uniform, normal eller noe annet; 2) å sammenligne to, tre eller flere empiriske fordelinger av samme funksjon. Beskrivelse av kriteriet χ 2-kriteriet svarer på spørsmålet om ulike verdier av et trekk forekommer med samme frekvens i de empiriske og teoretiske fordelingene eller i to eller flere empiriske fordelinger. Fordelen med metoden er at den tillater å sammenligne fordelingen av funksjoner presentert i en hvilken som helst skala, med utgangspunkt i navneskalaen. I det enkleste tilfellet med den alternative fordelingen "ja - nei", "tillatt ekteskap - tillot ikke ekteskap", "løste problemet - løste ikke problemet" osv., kan vi allerede anvende kriteriet χ 2 . Jo større avviket er mellom to sammenlignbare fordelinger, desto større er den empiriske verdien av χ 2 . Automatisk beregning av χ 2 - Pearsons kriterium For automatisk å beregne χ 2 - Pearsons kriterium, er det nødvendig å utføre to trinn: Trinn 1. Spesifiser antall empiriske fordelinger (fra 1 til 10); Steg 2. Skriv inn de empiriske frekvensene i tabellen; Trinn 3. Få svar.

Fordelen med Pearson-kriteriet er dets universalitet: det kan brukes til å teste hypoteser om ulike distribusjonslover.

1. Teste hypotesen om en normalfordeling.

La en prøve av tilstrekkelig stor størrelse oppnås P med mange forskjellige variantverdier. For enkelhets skyld deler vi intervallet fra den minste til den største av verdiene til varianten med s like deler og vi vil anta at verdiene til alternativene som faller inn i hvert intervall er omtrent lik tallet som spesifiserer midten av intervallet. Etter å ha telt antall alternativer som falt i hvert intervall, vil vi lage den såkalte grupperte prøven:

alternativer……….. X 1 X 2 … x s

frekvenser …………. P 1 P 2 … n s ,

hvor x i er verdiene til midtpunktene til intervallene, og n i er antall alternativer inkludert i Jeg intervall (empiriske frekvenser).



Basert på innhentede data er det mulig å beregne prøvegjennomsnitt og prøvestandardavvik σ B. La oss sjekke antakelsen om at den generelle befolkningen er fordelt etter normalloven med parametere M(X) = , D(X) = . Deretter kan du finne antall tall fra volumprøven P, som bør være i hvert intervall under denne forutsetningen (det vil si teoretiske frekvenser). For å gjøre dette, ved å bruke verditabellen til Laplace-funksjonen, finner vi sannsynligheten for å treffe Jeg-th intervall:

,

hvor en i og b i- grenser Jeg-th intervall. Multipliserer de resulterende sannsynlighetene med prøvestørrelsen n, finner vi de teoretiske frekvensene: p i =n p i.Vårt mål er å sammenligne empiriske og teoretiske frekvenser, som selvfølgelig skiller seg fra hverandre, og finne ut om disse forskjellene er ubetydelige, ikke motbeviser hypotesen om normalfordelingen til den tilfeldige variabelen som studeres, eller er de slik. stor at de motsier denne hypotesen. Til dette brukes et kriterium i form av en tilfeldig variabel

. (20.1)

Dens betydning er åpenbar: delene summeres, som er kvadratene av avvikene til de empiriske frekvensene fra de teoretiske fra de tilsvarende teoretiske frekvensene. Det kan bevises at uavhengig av den reelle fordelingsloven for den generelle befolkningen, tenderer fordelingsloven til den tilfeldige variabelen (20.1) til fordelingsloven (se forelesning 12) med antall frihetsgrader k = s - 1 – r, hvor r er antall parametere for den estimerte fordelingen estimert fra prøvedataene. Normalfordelingen er preget av to parametere, så k = s - 3. For det valgte kriteriet konstrueres et høyrehendt kritisk område, bestemt av tilstanden

(20.2)

hvor α - Signifikansnivå. Derfor er den kritiske regionen gitt av ulikheten og akseptområdet for hypotesen er .

Så for å teste nullhypotesen H 0: populasjonen er normalfordelt - du må beregne den observerte verdien av kriteriet fra utvalget:

, (20.1`)

og i henhold til tabellen over kritiske punkter for fordelingen χ 2 finn det kritiske punktet ved å bruke de kjente verdiene til α og k = s - 3. Hvis - nullhypotesen aksepteres, hvis den forkastes.

2. Teste hypotesen om jevn fordeling.

Når du bruker Pearson-testen for å teste hypotesen om en jevn fordeling av den generelle befolkningen med en antatt sannsynlighetstetthet

det er nødvendig, etter å ha beregnet verdien fra den tilgjengelige prøven, å estimere parametrene en og b i henhold til formlene:

hvor en* og b*- estimater en og b. Faktisk for en jevn fordeling M(X) = , , hvorfra du kan få et system for å bestemme en* og b*: , hvis løsning er uttrykk (20.3).

Så, forutsatt at , kan du finne de teoretiske frekvensene ved å bruke formlene

Her s er antall intervaller prøven er delt inn i.

Den observerte verdien av Pearson-kriteriet beregnes med formelen (20.1`), og den kritiske verdien beregnes fra tabellen, tatt i betraktning det faktum at antall frihetsgrader k = s - 3. Etter det bestemmes grensene for det kritiske området på samme måte som for å teste hypotesen om en normalfordeling.

3. Teste hypotesen om eksponentialfordelingen.

I dette tilfellet, ved å dele den eksisterende prøven inn i intervaller av lik lengde, vurderer vi en sekvens av alternativer like langt fra hverandre (vi antar at alle alternativer som faller inn i Jeg-th intervall, ta en verdi som faller sammen med midten), og deres tilsvarende frekvenser n i(antall eksempelalternativer inkludert i Jeg– intervall). Vi beregner fra disse dataene og tar som et estimat av parameteren λ verdi . Deretter beregnes de teoretiske frekvensene med formelen

Deretter sammenlignes de observerte og kritiske verdiene til Pearson-kriteriet, og tar i betraktning at antall frihetsgrader k = s - 2.

Pearson godhet-of-fit test:

Eksempel 1. Ved å bruke Pearson-testen, på et signifikansnivå på 0,05, sjekk om hypotesen om normalfordelingen til den generelle populasjonen X stemmer overens med den empiriske fordelingen av utvalgsstørrelsen n = 200.

Løsning finne med en kalkulator.

x iMengde, fix i * f iKumulativ frekvens, S(x - x sr) * f(x - x sr) 2 * f(x - x sr) 3 * fFrekvens, f i /n
5 15 75 15 114.45 873.25 -6662.92 0.075
7 26 182 41 146.38 824.12 -4639.79 0.13
9 25 225 66 90.75 329.42 -1195.8 0.13
11 30 330 96 48.9 79.71 -129.92 0.15
13 26 338 122 9.62 3.56 1.32 0.13
15 21 315 143 49.77 117.95 279.55 0.11
17 24 408 167 104.88 458.33 2002.88 0.12
19 20 380 187 127.4 811.54 5169.5 0.1
21 13 273 200 108.81 910.74 7622.89 0.065
200 2526 800.96 4408.62 2447.7 1

.
vektlagt gjennomsnitt


Variasjonsindikatorer.
.

R = X maks - X min
R=21-5=16
Spredning


Forutinntatt variansestimator


Standardavvik .

Hver verdi av serien skiller seg fra gjennomsnittsverdien på 12,63 med ikke mer enn 4,7
.

.
normal lov




n = 200, h=2 (intervallbredde), σ = 4,7, xav = 12,63

Jegx iu iφ in*i
1 5 -1.63 0,1057 9.01
2 7 -1.2 0,1942 16.55
3 9 -0.77 0,2943 25.07
4 11 -0.35 0,3752 31.97
5 13 0.0788 0,3977 33.88
6 15 0.5 0,3503 29.84
7 17 0.93 0,2565 21.85
8 19 1.36 0,1582 13.48
9 21 1.78 0,0804 6.85
Jegn in*in i -n* i(n i -n* i) 2(n i -n* i) 2 /n* i
1 15 9.01 -5.99 35.94 3.99
2 26 16.55 -9.45 89.39 5.4
3 25 25.07 0.0734 0.00539 0.000215
4 30 31.97 1.97 3.86 0.12
5 26 33.88 7.88 62.14 1.83
6 21 29.84 8.84 78.22 2.62
7 24 21.85 -2.15 4.61 0.21
8 20 13.48 -6.52 42.53 3.16
9 13 6.85 -6.15 37.82 5.52
200 200 22.86



Dens grense K kp = χ 2 (k-r-1;α) er funnet fra kjikvadratfordelingstabellene og de gitte verdiene σ, k = 9, r=2 (parametrene x cp og σ er estimert fra prøven ).
Kkp(0,05;6) = 12,59159; Kobs = 22,86
Den observerte verdien av Pearson-statistikken faller inn i det kritiske området: Knable > Kkp, så det er grunn til å avvise hovedhypotesen. Eksempeldataene er distribuert ikke etter vanlig lov. Med andre ord skiller de empiriske og teoretiske frekvensene seg betydelig.

Eksempel 2. Ved å bruke Pearson-testen, på et signifikansnivå på 0,05, sjekk om hypotesen om normalfordelingen til den generelle populasjonen X stemmer overens med den empiriske fordelingen av utvalgsstørrelsen n = 200.
Løsning.
Tabell for beregning av indikatorer.

x iMengde, fix i * f iKumulativ frekvens, S(x - x sr) * f(x - x sr) 2 * f(x - x sr) 3 * fFrekvens, f i /n
0.3 6 1.8 6 5.77 5.55 -5.34 0.03
0.5 9 4.5 15 6.86 5.23 -3.98 0.045
0.7 26 18.2 41 14.61 8.21 -4.62 0.13
0.9 25 22.5 66 9.05 3.28 -1.19 0.13
1.1 30 33 96 4.86 0.79 -0.13 0.15
1.3 26 33.8 122 0.99 0.0375 0.00143 0.13
1.5 21 31.5 143 5 1.19 0.28 0.11
1.7 24 40.8 167 10.51 4.6 2.02 0.12
1.9 20 38 187 12.76 8.14 5.19 0.1
2.1 8 16.8 195 6.7 5.62 4.71 0.04
2.3 5 11.5 200 5.19 5.39 5.59 0.025
200 252.4 82.3 48.03 2.54 1

Distribusjonssenterberegninger.
vektlagt gjennomsnitt


Variasjonsindikatorer.
Absolutte variasjonsrater.
Variasjonsområdet er forskjellen mellom maksimums- og minimumsverdiene til attributtet til primærserien.
R = X maks - X min
R = 2,3 - 0,3 = 2
Spredning- karakteriserer spredningsmålet rundt middelverdien (spredningsmål, dvs. avvik fra gjennomsnittet).


Forutinntatt variansestimator er et konsistent estimat av variansen.


Standardavvik.

Hver verdi av serien skiller seg fra gjennomsnittsverdien på 1,26 med ikke mer enn 0,49
Estimerer standardavviket.

Teste hypoteser om type distribusjon.
1. La oss teste hypotesen om at X er fordelt over normal lov ved å bruke Pearsons godhet-of-fit-test.

hvor n* i - teoretiske frekvenser:

Vi beregner de teoretiske frekvensene, gitt at:
n = 200, h=0,2 (intervallbredde), σ = 0,49, xav = 1,26

Jegx iu iφ in*i
1 0.3 -1.96 0,0573 4.68
2 0.5 -1.55 0,1182 9.65
3 0.7 -1.15 0,2059 16.81
4 0.9 -0.74 0,3034 24.76
5 1.1 -0.33 0,3765 30.73
6 1.3 0.0775 0,3977 32.46
7 1.5 0.49 0,3538 28.88
8 1.7 0.89 0,2661 21.72
9 1.9 1.3 0,1691 13.8
10 2.1 1.71 0,0909 7.42
11 2.3 2.12 0,0422 3.44

La oss sammenligne empiriske og teoretiske frekvenser. La oss lage en beregningstabell, hvorfra vi finner den observerte verdien av kriteriet:

21.72 -2.28 5.2 0.24 9 20 13.8 -6.2 38.41 2.78 10 8 7.42 -0.58 0.34 0.0454 11 5 3.44 -1.56 2.42 0.7 ∑ 200 200 12.67

La oss definere grensen for den kritiske regionen. Siden Pearson-statistikken måler forskjellen mellom den empiriske og den teoretiske fordelingen, jo større dens observerte verdi av K obs, desto sterkere er argumentet mot hovedhypotesen.
Derfor er den kritiske regionen for denne statistikken alltid høyrehendt :)