Biografier Kjennetegn Analyse

Loven om store tall og grensesetninger. Loven om store tall

Chebyshevs Lemma. Hvis den tilfeldige variabelen X, som det er en matematisk forventning til M[x], kan bare ta ikke-negative verdier, så for ethvert positivt tall a holder ulikheten

Chebyshevs ulikhet. Hvis X– tilfeldig variabel med matematisk forventning M[x] og varians D[x], så gjelder ulikheten for enhver positiv e

. (2)

Chebyshevs teorem.(lov store tall). La X 1 , X 2 , …, x n,... - sekvens av uavhengige tilfeldige variabler med samme matematiske forventning m og varianser begrenset av den samme konstanten Med

. (3)

Beviset for teoremet er basert på ulikheten

, (4)

følge av Chebyshevs ulikhet. Fra Chebyshevs teorem, som en konsekvens, kan vi få

Bernoullis teorem. La det produseres n uavhengige eksperimenter, i hver av dem med sannsynlighet R noen hendelser kan oppstå EN, La det gå vn– tilfeldig variabel lik antall forekomster av hendelsen EN i disse n eksperimenter. Så for enhver e > 0 gjelder grensen for likhet

. (5)

Merk at ulikhet (4) i forhold til betingelsene i Bernoullis teorem gir:

. (6)

Chebyshevs teorem kan formuleres i en litt mer generell form:

Generaliserte Chebyshevs teorem. La x 1, x 2, …, x n,... - sekvens av uavhengige tilfeldige variabler med matematiske forventninger M[x 1 ] = m 1, M[x 2] = m 2,... og dispersjoner begrenset til samme konstant Med. Så for ethvert positivt tall e gjelder grenselikheten

. (7)

La x være antall forekomster av 6 poeng i 3600 terningkast. Deretter M[ x] = 3600 = 600. La oss nå bruke ulikhet (1) for a = 900: .

Vi bruker ulikhet (6) for n = 10000, р = , q = . Deretter

Eksempel.

Sannsynligheten for at hendelse A inntreffer i hvert av 1000 uavhengige eksperimenter er 0,8. Finn sannsynligheten for at antall forekomster av hendelse A i disse 1000 eksperimentene vil avvike fra matematisk forventning Av absolutt verdi mindre enn 50.

La x være antall forekomster av hendelse A i de angitte 1000 eksperimentene. Deretter M[ x] = 1000 × 0,8 = 800 og D [ x] = 1000 × 0,8 × 0,2 = 160. Nå gir ulikhet (2):


Eksempel.

Variansen til hver av 1000 uavhengige tilfeldige variable x k (k = 1, 2,..., 1000) er lik 4. Estimer sannsynligheten for at avviket til det aritmetiske gjennomsnittet av disse verdiene fra det aritmetiske gjennomsnittet av deres matematiske forventninger i absolutt verdi vil ikke overstige 0,1.

I følge ulikhet (4) med c = 4 og e = 0,1 har vi.

Plan:

1. Konseptet med sentralgrensesetningen (Lyapunovs teorem)

2. Lov om store tall, sannsynlighet og frekvens (teoremer av Chebyshev og Bernoulli)

1. Begrepet sentralgrensesetningen.

Den normale sannsynlighetsfordelingen har i sannsynlighetsteori veldig viktig. Sannsynlighet følger normalloven ved skyting mot et mål, i målinger osv. Spesielt viser det seg at fordelingsloven for summen av et tilstrekkelig stort antall uavhengige stokastiske variable med vilkårlige fordelingslover er nær normalfordelingen. Dette faktum kalles sentralgrensesetningen eller Lyapunovs teorem.

Det er kjent at normalfordelte stokastiske variabler er mye brukt i praksis. Hva forklarer dette? Dette spørsmålet er besvart

Sentral grensesetning. Hvis den tilfeldige variabelen X er summen av svært stort nummer gjensidig uavhengige tilfeldige variabler, hvor hver påvirkning på hele summen er ubetydelig, så har X en fordeling nær normalfordelingen.

Eksempel. La oss måle en fysisk mengde. Enhver måling gir kun en omtrentlig verdi av den målte verdien, siden måleresultatet påvirkes av mange uavhengige tilfeldige faktorer (temperatur, instrumentsvingninger, fuktighet osv.). Hver av disse faktorene genererer en ubetydelig "delvis feil". Men siden antallet av disse faktorene er veldig stort, gir deres kombinerte effekt opphav til en merkbar "total feil".

Ser vi på den totale feilen som summen av et meget stort antall av hverandre uavhengige delfeil, kan vi konkludere med at den totale feilen har en fordeling nær normalfordelingen. Erfaring bekrefter gyldigheten av denne konklusjonen.

La oss vurdere forholdene under hvilke "sentralgrensesetningen" er oppfylt

X1,X2, ..., Xn– sekvens av uavhengige tilfeldige variabler,

M(X1),M(X2), ...,M(Xn) - de endelige matematiske forventningene til disse mengdene, henholdsvis like M(Xk)= ak

D (X1),D(X2), ...,D(Xn) - deres endelige avvik er henholdsvis like D(X k)= bk2

La oss introdusere følgende notasjon: S= X1+X2 + ...+Xn;

A k= X1+X2 + ...+Xn=; B2= D (X1)+D(Х2)+ ...+D(Xn) =

La oss skrive fordelingsfunksjonen til den normaliserte summen:

De sier det for konsistens X1,X2, ..., Xn Sentralgrensesetningen gjelder hvis for noen x fordelingsfunksjonen til den normaliserte summen som n ® ¥ har en tendens til normal funksjon distribusjoner:

Høyre " style="border-collapse:collapse;border:none;margin-left:6.75pt;margin-right: 6.75pt">

La oss vurdere en diskret tilfeldig variabel X, spesifisert av distribusjonstabellen:

La oss sette oss oppgaven med å estimere sannsynligheten for at avviket til en tilfeldig variabel fra dens matematiske forventning ikke overstiger et positivt tall i absolutt verdi ε

Hvis ε er liten nok, så vil vi dermed estimere sannsynligheten for at X vil ta verdier ganske nær den matematiske forventningen. bevist en ulikhet som gjør at vi kan gi anslaget vi er interessert i.

Chebyshevs Lemma. Gitt en tilfeldig variabel X, som bare tar ikke-negative verdier med matematisk forventning M(X). For et hvilket som helst tall α>0 gjelder uttrykket:

Chebyshevs ulikhet. Sannsynligheten for at avviket til en tilfeldig variabel X fra dens matematiske forventning i absolutt verdi er mindre enn et positivt tall ε , ikke mindre enn 1 – D(X) / ε 2:

P(|X-M(X)|< ε ) ³ 1 - D (X) / ε 2.

Kommentar. Chebyshevs ulikhet har begrenset praktisk betydning, siden den ofte gir et grovt og noen ganger trivielt (uten interesse) anslag.

Den teoretiske betydningen av Chebyshevs ulikhet er veldig stor. Nedenfor vil vi bruke denne ulikheten til å utlede Chebyshevs teorem.

2.2. Chebyshevs teorem

Hvis X1, X2, ..., Xn.. er parvise uavhengige tilfeldige variabler, og deres varians er jevnt begrenset (ikke overskride et konstant tall C), så uansett hvor liten positivt tall ε , sannsynlighet for ulikhet

÷ (X1+X2 + ...+Xn) / n - (M(X1)+M(X2)+ ...+M(Xn))/n |< ε

vil være så nær enhet som ønsket dersom antallet tilfeldige variabler er stort nok.

P (÷ (X1+X2 + ...+Xn) / n - (M(X1)+M(X2)+ ...+M(Xn))/n |< ε )=1.

Chebyshevs teorem sier:

1. Et tilstrekkelig stort antall uavhengige tilfeldige variabler med begrensede varianser vurderes,

Ved å formulere Chebyshevs teorem antok vi at tilfeldige variabler har forskjellige matematiske forventninger. I praksis hender det ofte at tilfeldige variabler har samme matematiske forventning. Selvfølgelig, hvis vi igjen antar at spredningen av disse mengdene er begrenset, vil Chebyshevs teorem være anvendelig for dem.

La oss betegne den matematiske forventningen til hver av de tilfeldige variablene med EN;

I det aktuelle tilfellet er det aritmetiske gjennomsnittet av matematiske forventninger, som det er lett å se, også lik EN.

Det er mulig å formulere Chebyshevs teorem for det spesielle tilfellet som vurderes.

"Hvis X1, X2, ..., Xn.. er parvise uavhengige tilfeldige variabler som har samme matematiske forventning a, og hvis variansene til disse verdiene er jevnt begrenset, så uansett hvor lite antallet er ε >Å, sannsynligheten for ulikhet

÷ (X1+X2 + ...+Xn) / n - en | < ε

vil være så nær enhet som ønsket hvis antallet tilfeldige variabler er stort nok" .

Med andre ord under teoremets betingelser

P (÷ (X1+X2 + ...+Xn) / n - a |< ε ) = 1.

2.3. Essensen av Chebyshevs teorem

Selv om individuelle uavhengige tilfeldige variabler kan ta verdier langt fra deres matematiske forventninger, er det svært sannsynlig at det aritmetiske gjennomsnittet av et tilstrekkelig stort antall tilfeldige variabler tar verdier nær en viss en konstant antall, nemlig til nummeret

(M (Xj) + M (X2)+... + M (Х„))/п eller til nummeret og i spesielt tilfelle.

Med andre ord kan individuelle tilfeldige variabler ha en betydelig spredning, og deres aritmetiske gjennomsnitt er spredt lite.

Dermed kan man ikke med sikkerhet forutsi hvilken mulig verdi hver av de tilfeldige variablene vil ha, men man kan forutsi hvilken verdi deres aritmetiske gjennomsnitt vil ha.

Så det aritmetiske gjennomsnittet av et tilstrekkelig stort antall uavhengige tilfeldige variabler (hvis variansene er jevnt begrenset) mister karakteren av en tilfeldig variabel.

Dette forklares med det faktum at avvikene til hver verdi fra dens matematiske forventninger kan være både positive og negative, og i det aritmetiske gjennomsnittet opphever de hverandre.

Chebyshevs teorem er gyldig ikke bare for diskrete, men også for kontinuerlige tilfeldige variabler; det er et eksempel som bekrefter gyldigheten av læren om sammenhengen mellom tilfeldighet og nødvendighet.

2.4. Betydningen av Chebyshevs teorem for praksis

La oss gi eksempler på anvendelsen av Chebyshevs teorem for å løse praktiske problemer.

Vanligvis, for å måle en viss fysisk mengde, gjøres flere målinger og deres aritmetiske gjennomsnitt tas som ønsket størrelse. Under hvilke forhold kan denne målemetoden anses som riktig? Svaret på dette spørsmålet er gitt av Chebyshevs teorem (dets spesielle tilfelle).

Betrakt resultatene av hver måling som tilfeldige variabler

X1, X2, ..., Xn

Chebyshevs teorem kan brukes på disse mengdene hvis:

1) De er parvis uavhengige.

2) ha samme matematiske forventninger,

3) deres varians er jevnt begrenset.

Det første kravet er oppfylt dersom resultatet av hver måling ikke er avhengig av resultatene til de andre.

Det andre kravet er oppfylt dersom målingene gjøres uten systematiske (samme tegn) feil. I dette tilfellet er de matematiske forventningene til alle tilfeldige variabler de samme og lik den sanne størrelsen EN.

Det tredje kravet er oppfylt dersom enheten gir en viss målenøyaktighet. Selv om resultatene av individuelle målinger er forskjellige, er spredningen begrenset.

Hvis alle de spesifiserte kravene er oppfylt, har vi rett til å bruke Chebyshevs teorem på måleresultatene: for en tilstrekkelig stor P sannsynlighet for ulikhet

| (X1 + Xa+...+X„)/n - a |< ε så nær enhet du vil.

Med andre ord, med et tilstrekkelig stort antall målinger, er det nesten sikkert at deres aritmetiske gjennomsnitt avviker så lite som ønsket fra den sanne verdien av den målte verdien.

Chebyshevs teorem angir forholdene som den beskrevne målemetoden kan brukes under. Det er imidlertid feil å tro at man ved å øke antall målinger kan oppnå vilkårlig høy nøyaktighet. Faktum er at selve enheten gir avlesninger bare med en nøyaktighet på ± α, derfor vil hvert av måleresultatene, og derfor deres aritmetiske gjennomsnitt, kun oppnås med en nøyaktighet som ikke overstiger enhetens nøyaktighet.

Den mye brukte metoden i statistikk er basert på Chebyshevs teorem. prøvetakingsmetode, essensen som er at for en relativt liten tilfeldig utvalg bedømme helheten ( befolkning) objekter som studeres.

For eksempel bestemmes kvaliteten på en bomullsball av en liten bunt bestående av fibre valgt tilfeldig fra forskjellige deler av ballen. Selv om antallet fibre i en bunt er betydelig mindre enn i en balle, inneholder bunten i seg selv et ganske stort antall fibre, nummerert i hundrevis.

Som et annet eksempel kan vi peke på å bestemme kvaliteten på korn fra en liten prøve. Og i dette tilfellet er antallet tilfeldig utvalgte korn lite sammenlignet med hele kornets masse, men i seg selv er det ganske stort.

Allerede fra eksemplene som er gitt, kan vi konkludere med at Chebyshevs teorem er av uvurderlig betydning for praksis.

2.5. TeoremBernoulli

Produsert Puavhengige tester(ikke hendelser, men tester). I hver av dem er sannsynligheten for at en hendelse inntreffer EN lik R.

Spørsmålet oppstår, Hva ville være den omtrentlige relative hyppigheten av forekomsten av hendelsen? Dette spørsmålet er besvart av et teorem bevist av Bernoulli, som ble kalt "loven om store tall" og la grunnlaget for sannsynlighetsteori som en vitenskap.

Bernoullis teorem. Hvis i hver av P uavhengig testsannsynlighet R forekomst av en hendelse EN er konstant, da er sannsynligheten for at avviket til den relative frekvensen fra sannsynligheten vilkårlig nær enhet R i absolutt verdi vil være vilkårlig liten hvis antallet tester er stort nok.

Med andre ord, hvis ε >0 er et vilkårlig lite tall, vil likheten gjelde, underlagt betingelsene i teoremet

P(|m / p - p|< ε)= 1

Kommentar. Det ville være feil å konkludere, basert på Bernoullis teorem, at etter hvert som antall forsøk øker, tenderer den relative frekvensen jevnt til sannsynligheten R; med andre ord, Bernoullis teorem innebærer ikke likhet (t/p) = p,

I Teoremet omhandler kun sannsynligheten for at den relative frekvensen med et tilstrekkelig stort antall forsøk vil avvike så lite som ønsket fra den konstante sannsynligheten for at en hendelse inntreffer i hver prøvelse.

Oppgave 7-1.

1. Estimer sannsynligheten for at ved 3600 terningkast vil antallet 6 poeng være minst 900.

Løsning. La x være antall forekomster av 6 poeng i 3600 myntkast. Sannsynligheten for å få 6 poeng i ett kast er p=1/6, deretter er M(x)=3600·1/6=600. La oss bruke Chebyshevs ulikhet (lemma) for en gitt α = 900

= P(x³ 900) £ 600 / 900 =2 / 3

Svar 2 / 3.

2. Det ble utført 1000 uavhengige tester, p=0,8. Finn sannsynligheten for at antall forekomster av hendelse A i disse forsøkene avviker fra dens matematiske forventning i absolutt verdi mindre enn 50.

Løsning. x er antall forekomster av hendelse A i n – 1000 forsøk.

M(X)=1000·0,8=800. D(x)=100·0,8·0,2=160

La oss bruke Chebyshevs ulikhet for en gitt ε = 50

P(|x-M(X)|< ε) ³ 1 - D(x)/ ε 2

R(|x-800|< 50) ³ / 50 2 = 1-160 / 2500 = 0,936.

Svar. 0,936

3. Bruk Chebyshevs ulikhet, estimer sannsynligheten for at |X - M(X)|< 0,1, если D (X) = 0,001. Ответ Р³0,9.

4. Gitt: P(|X- M(X)\< e) 3 0,9; D (X)= 0,004. Bruk Chebyshevs ulikhet, finn ε . Svar. 0,2.

Testspørsmål og oppgaver

1. Hensikten med sentralgrensesetningen

2. Betingelser for anvendeligheten av Lyapunovs teorem.

3. Forskjellen mellom lemmaet og Chebyshevs teorem.

4. Betingelser for anvendeligheten av Chebyshevs teorem.

5. Betingelser for anvendeligheten av Bernoullis teorem (lov om store tall)

Krav til kunnskap og ferdigheter

Studenten skal kunne den generelle semantiske formuleringen av sentralgrensesetningen. Kunne formulere spesielle teoremer for uavhengige identisk fordelte stokastiske variabler. Forstå Chebyshevs ulikhet og loven om store tall i Chebyshev-form. Ha en ide om frekvensen av en hendelse, forholdet mellom begrepene "sannsynlighet" og "frekvens". Ha en forståelse av loven om store tall i Bernoulli-form.

(1857-1918), fremragende russisk matematiker

I begynnelsen av kurset snakket vi allerede om det matematiske lover sannsynlighetsteorier oppnås ved å abstrahere virkelige statistiske mønstre som er iboende til tilfeldige massefenomener. Tilstedeværelsen av disse mønstrene er assosiert nettopp med fenomenenes massenatur, det vil si med et stort antall homogene eksperimenter utført eller med et stort antall kumulative tilfeldige påvirkninger, som i sin helhet genererer en tilfeldig variabel som er underlagt en veldefinert lov. Egenskapen til stabilitet av tilfeldige massefenomener har vært kjent for menneskeheten siden antikken. Uansett hvilket område det manifesterer seg, koker dets essens ned til følgende: de spesifikke trekkene til hvert enkelt tilfeldig fenomen har nesten ingen effekt på gjennomsnittsresultatet av masser og slike fenomener; tilfeldige avvik fra gjennomsnittet, uunngåelige hos alle eget fenomen, i massen er de gjensidig opphevet, utjevnet, utjevnet. Det er denne stabiliteten til gjennomsnittene som representerer det fysiske innholdet i "loven om store tall", forstått i ordets vid betydning: med et veldig stort antall tilfeldige fenomener slutter deres gjennomsnittlige resultat praktisk talt å være tilfeldig og kan forutsies. med høy grad av sikkerhet.

I den snevre betydningen av ordet forstås "loven om store tall" i sannsynlighetsteori som en serie matematiske teoremer, som hver for seg under visse forhold fastslår det faktum at gjennomsnittskarakteristikkene til et stort antall eksperimenter nærmer seg visse visse konstanter.

I 2.3 formulerte vi allerede den enkleste av disse teoremene - teoremet til J. Bernoulli. Hun hevder at med et stort antall eksperimenter, nærmer frekvensen av en hendelse seg (mer presist, konvergerer i sannsynlighet) til sannsynligheten for denne hendelsen. Med andre, mer generelle skjemaer Vi vil introdusere loven om store tall i dette kapittelet. Alle av dem etablerer faktum og betingelsene for konvergens i sannsynlighet for visse tilfeldige variabler til konstante, ikke-tilfeldige variabler.

Loven om store tall spiller en viktig rolle i praktiske applikasjoner sannsynlighetsteori. Egenskapen til tilfeldige variabler, under visse forhold, til å oppføre seg nesten som ikke-tilfeldige, gjør at man trygt kan operere med disse mengdene og forutsi resultatene av tilfeldige massefenomener med nesten fullstendig sikkerhet.

Mulighetene for slike spådommer innen massetilfeldige fenomener utvides ytterligere ved tilstedeværelsen av en annen gruppe grensesetninger, som ikke angår de begrensende verdiene til tilfeldige variabler, men de begrensende fordelingslovene. Det handler om om en gruppe teoremer kjent som "sentralgrensesetningen". Vi har allerede sagt at når man summerer et tilstrekkelig stort antall tilfeldige variabler, nærmer fordelingsloven av summen seg på ubestemt tid normal, under visse betingelser. Disse forholdene, som kan formuleres matematisk på ulike måter - i mer eller mindre generell form - koker i hovedsak ned til kravet om at påvirkningen på summen av enkeltledd skal være jevnt liten, det vil si at summen ikke inkluderer medlemmer som klart dominere helheten resten i henhold til deres innflytelse på spredningen av mengden. De ulike formene for sentralgrensesetningen skiller seg fra hverandre i forholdene som denne begrensende egenskapen til summen av tilfeldige variabler er etablert for.

Ulike former for loven om store tall sammen med ulike former Sentralgrensesetningen danner et sett med såkalte grensesetninger for sannsynlighetsteori. Grensesetninger gjør det mulig ikke bare å lage vitenskapelige prognoser innen tilfeldige fenomener, men også å evaluere nøyaktigheten av disse prognosene.

I dette kapittelet skal vi ta for oss bare noen av de mest enkle former grensesetninger. Først vil vi vurdere teoremer relatert til gruppen "lov om store tall", deretter teoremene knyttet til gruppen "sentral grensesetning".

1. /PB-MS-teori/Forelesninger-1(4s.).dok
2. /PB-MS-teori/Forelesninger-2 (4 s.).dok
3. /PB-MS-teori/Forelesninger-3(4s.).dok
4. /PB-MS-teori/Forelesninger-4(4s.).dok
5. /PB-MS-theory/Contents.doc
Forelesning 1
Forelesning 19. Statistisk testing av statistiske hypoteser. Generelle prinsipper for hypotesetesting. Begreper statistisk hypotese (enkel og kompleks), null og konkurrerende hypotese,
Loven om store tall. Chebyshevs ulikhet. Teoremer fra Chebyshev og Bernoulli
Forelesning Grunnleggende numeriske kjennetegn ved diskrete og kontinuerlige tilfeldige variabler: matematisk forventning, spredning og standardavvik. Deres egenskaper og eksempler
Forelesning Emne sannsynlighetsteori. Tilfeldige hendelser. Algebra av hendelser. Relativ frekvens og sannsynlighet for en tilfeldig hendelse. Komplett gruppe arrangementer. Klassisk definisjon av sannsynlighet. Grunnleggende egenskaper ved sannsynlighet. Grunnleggende formler for kombinatorikk

Forelesning 13.

Loven om store tall. Chebyshevs ulikhet. Teoremer fra Chebyshev og Bernoulli.
Studiet av statistiske mønstre gjorde det mulig å fastslå at den generelle atferden under visse betingelser stor kvantitet tilfeldige variabler går nesten tapt tilfeldig natur og blir naturlig (med andre ord, tilfeldige avvik fra en eller annen gjennomsnittlig atferd opphever hverandre). Spesielt hvis påvirkningen på summen av individuelle termer er jevnt liten, nærmer fordelingsloven for summen seg normal. Den matematiske formuleringen av denne setningen er gitt i en gruppe teoremer kalt lov om store tall.

Chebyshevs ulikhet.
Chebyshevs ulikhet, brukt til å bevise ytterligere teoremer, er gyldig for både kontinuerlige og diskrete tilfeldige variabler. La oss bevise det for diskrete tilfeldige variabler.
Teorem 13.1 (Chebyshev-ulikhet). s( | XM(X)| D( X) / ε². (13.1)

Bevis. La X er gitt av distribusjonsserien


X

X 1

X 2



X P

R

R 1

R 2



R P

Siden hendelser | XM(X)| X M(X)| ≥ ε er altså motsatte R (|XM(X)| p(| XM(X)| ≥ ε) = 1, derfor, R (|XM(X)| p(| XM(X)| ≥ ε). Vi finner R (|XM(X)| ≥ ε).

D(X) = (x 1 – M(X))² s 1 + (x 2 – M(X))² s 2 + … + (x n M(X))² s n . La oss ekskludere fra denne summen de vilkårene som | XM(X)| k vilkår. Deretter

D(X) ≥ (x k + 1 – M(X))² s k + 1 + (x k + 2 – M(X))² s k +2 + … + (x n M(X))² s n ≥ ε² ( s k + 1 + s k + 2 + … + s n).

Noter det s k + 1 + s k + 2 + … + s n det er en mulighet for at | XM(X)| ≥ ε, siden dette er summen av sannsynlighetene for alle mulige verdier X, som denne ulikheten er sann for. Derfor, D(X) ≥ ε² R(|XM(X)| ≥ ε), eller R (|XM(X)| ≥ ε) ≤ D(X) / ε². Så sannsynligheten motsatt hendelse s( | XM(X)| D( X) / ε², som er det som måtte bevises.
Teoremer fra Chebyshev og Bernoulli.

Teorem 13.2 (Chebyshevs teorem). Hvis X 1 , X 2 ,…, X P- parvise uavhengige tilfeldige variabler hvis varians er jevnt begrenset ( D(X Jeg) ≤ C), så for et vilkårlig lite tall ε sannsynligheten for ulikhet

vil være vilkårlig nær 1 hvis antallet tilfeldige variabler er stort nok.

Kommentar. Med andre ord hvis disse vilkårene er oppfylt

Bevis. Tenk på en ny tilfeldig variabel
og finne dens matematiske forventning. Ved å bruke egenskapene til matematisk forventning får vi det . Søke på Chebyshev-ulikhet: Siden de tilfeldige variablene som vurderes er uavhengige, har vi, tatt i betraktning betingelsene for teoremet,: Ved å bruke dette resultatet presenterer vi den forrige ulikheten i formen:

La oss gå til grensen kl
: Siden sannsynligheten ikke kan være større enn 1, kan det opplyses at

Teoremet er bevist.
Konsekvens.

Hvis X 1 , X 2 , …, X P– parvise uavhengige tilfeldige variabler med jevnt begrensede varianser, med samme matematiske forventning lik EN, så for enhver vilkårlig liten ε > 0 sannsynligheten for ulikhet
vil være så nær 1 som ønsket dersom antallet tilfeldige variabler er stort nok. Med andre ord,
.

Konklusjon: det aritmetiske gjennomsnittet av et tilstrekkelig stort antall tilfeldige variabler tar verdier nær summen av deres matematiske forventninger, det vil si at den mister karakteren av en tilfeldig variabel. For eksempel, hvis en serie målinger av en fysisk størrelse utføres, og: a) resultatet av hver måling ikke avhenger av resultatene til de andre, det vil si at alle resultatene er parvis uavhengige tilfeldige variabler; b) målinger gjøres uten systematiske feil (deres matematiske forventninger er lik hverandre og lik den sanne verdien EN målt mengde); c) en viss nøyaktighet av målingene er sikret, derfor er spredningen av de tilfeldige variablene som vurderes jevnt begrenset; da, med et tilstrekkelig stort antall målinger, vil deres aritmetiske gjennomsnitt vise seg å være vilkårlig nær den sanne verdien av den målte størrelsen.
Bernoullis teorem.
Teorem 13.3 (Bernoullis teorem). Hvis i hver av P uavhengige eksperimenter sannsynlighet R forekomst av en hendelse EN er konstant, da med et tilstrekkelig stort antall tester, sannsynligheten for at avviksmodulen for den relative frekvensen av forekomster EN V P eksperimenter fra R vil være så liten som ønsket, så nær 1 som ønsket:

(13.2)

Bevis. La oss introdusere tilfeldige variabler X 1 , X 2 , …, X P, Hvor X Jeg antall opptredener EN V Jeg-m erfaring. Hvori X Jeg kan bare ta to verdier: 1 (med sannsynlighet R) og 0 (med sannsynlighet q = 1 – s). I tillegg er de tilfeldige variablene som vurderes parvis uavhengige og deres varians er jevnt avgrenset (siden D(X Jeg) = pq, s + q = 1, hvor fra pq ≤ ¼). Følgelig kan Chebyshevs teorem brukes på dem når M Jeg = s:

.

Men
, fordi X Jeg får en verdi på 1 når den vises EN V denne opplevelsen, og en verdi lik 0 if EN Skjedde ikke. Dermed,

Q.E.D.
Kommentar. Fra Bernoullis teorem ikke gjør det, Hva
Det handler bare om sannsynligheter at forskjellen mellom den relative frekvensen og den absolutte sannsynligheten kan bli vilkårlig liten. Forskjellen er som følger: med den vanlige konvergensen tatt i betraktning matematisk analyse, for alle P, med utgangspunkt i en eller annen verdi, ulikheten
alltid henrettet; i vårt tilfelle kan det være slike verdier P, som denne ulikheten ikke er sann for. Denne typen konvergens kalles konvergens i sannsynlighet.

Forelesning 14.

Lyapunovs sentrale grensesetning. Moivre-Laplace grensesetning.
Loven om store tall undersøker ikke formen til grenseloven for distribusjon av en sum av tilfeldige variabler. Dette spørsmålet vurderes i en gruppe teoremer kalt sentral grense teorem. De hevder at fordelingsloven for en sum av tilfeldige variabler, som hver kan ha forskjellige fordelinger, nærmer seg normal når antall ledd er tilstrekkelig stort. Dette forklarer viktigheten av normalloven for praktiske anvendelser.
Karakteristiske funksjoner.

For å bevise den sentrale grensesetningen brukes metoden for karakteristiske funksjoner.
Definisjon 14.1.Karakteristisk funksjon tilfeldig variabel X kalt funksjon

g(t) = M (e itX ) (14.1)

Dermed, g (t) representerer den matematiske forventningen til en kompleks tilfeldig variabel U = e itX, knyttet til verdien X. Spesielt hvis X er en diskret tilfeldig variabel spesifisert av en distribusjonsserie, da

. (14.2)

For en kontinuerlig tilfeldig variabel med distribusjonstetthet f(x)

(14.3)

Eksempel 1. La X– antall 6 poeng i ett kast terning. Deretter i henhold til formel (14.2) g(t) =

Eksempel 2. La oss finne karakteristikken funksjon for en normalisert kontinuerlig tilfeldig variabel fordelt over normal lov
. I henhold til formel (14.3) (vi brukte formelen
og hva Jeg² = -1).

Egenskaper til karakteristiske funksjoner.
1. Funksjon f(x) finner du på kjent funksjon g(t) i henhold til formelen

(14.4)

(transformasjon (14.3) kalles Fourier-transformasjon, og transformasjon (14.4) – invers transformasjon Fourier).

2. Hvis tilfeldige variabler X Og Y knyttet til relasjonen Y = øks, så er deres karakteristiske funksjoner relatert av relasjonen

g y (t) = g x (). (14.5)

3. Den karakteristiske funksjonen til summen av uavhengige tilfeldige variabler er lik produktet av de karakteristiske funksjonene til leddene: for

(14.6)
Teorem 14.1 (sentral grensesetning for identisk fordelte ledd). Hvis X 1 , X 2 ,…, X P,... - uavhengige tilfeldige variabler med samme distribusjonslov, matematisk forventning T og varians σ 2, da med ubegrenset økning P loven om sumfordeling
nærmer seg uendelig det normale.

Bevis.

La oss bevise teoremet for kontinuerlige tilfeldige variabler X 1 , X 2 ,…, X P(bevis for diskrete mengder på samme måte). I henhold til betingelsene for teoremet er de karakteristiske funksjonene til begrepene identiske:
Deretter, ved egenskap 3, den karakteristiske funksjonen til summen Y n vil
La oss utvide funksjonen g x (t) i Maclaurin-serien:

, Hvor

.

Antar at T= 0 (det vil si flytte origo til punktet T), Det
.

(fordi T= 0). Ved å erstatte resultatene oppnådd med Maclaurin-formelen finner vi det

.

Tenk på en ny tilfeldig variabel
, annerledes enn Y n ved at dens spredning for evt P er lik 0. Siden Y n Og Z n tilkoblet lineær avhengighet, det er nok til å bevise det Z n fordelt i henhold til en normallov, eller, som er det samme, at dens karakteristiske funksjon nærmer seg den karakteristiske funksjonen til en normallov (se eksempel 2). Ved egenskapen til karakteristiske funksjoner

La oss ta logaritmen til det resulterende uttrykket:

Hvor

La oss dekomponere
på rad kl P→ ∞, begrenser oss til to ledd i utvidelsen, så ln(1 - k) ≈ - k. Herfra

Der den siste grensen er 0, siden kl. Derfor,
, det er
- karakteristisk funksjon normal distribusjon. Så, med en ubegrenset økning i antall ledd, den karakteristiske funksjonen til mengden Z n nærmer seg ubegrenset den karakteristiske funksjonen til normalloven; derfor distribusjonsloven Z n (Og Y n) nærmer seg normal uten grenser. Teoremet er bevist.

A.M. Lyapunov beviste den sentrale grensesetningen for forhold mer generelt syn:
Teorem 14.2 (Lyapunovs teorem). Hvis den tilfeldige variabelen X er summen av et veldig stort antall gjensidig uavhengige tilfeldige variabler der følgende betingelse er oppfylt:

, (14.7)

Hvor b k – tredje absolutte sentrale moment av størrelse X Til, A D k er dens varians, da X har en fordeling nær normalen (Lyapunovs tilstand betyr at påvirkningen av hvert ledd på summen er ubetydelig).
I praksis er det mulig å bruke sentralgrenseteoremet med et tilstrekkelig lite antall ledd, siden sannsynlighetsberegninger krever relativt lav nøyaktighet. Erfaring viser at for en sum på ti eller færre ledd, kan loven om deres fordeling erstattes med en normal.

Et spesialtilfelle av den sentrale grensesetningen for diskrete stokastiske variabler er Moivre-Laplace-teoremet.

Teorem 14.3 (Moivre-Laplace teorem). Hvis produsert P uavhengige eksperimenter, i hver av dem en hendelse EN vises med sannsynlighet R, da er følgende relasjon gyldig:

(14.8)

Hvor Y – antall forekomster av hendelsen EN V P eksperimenter, q = 1 – s.

Bevis.

Det vil vi anta
, Hvor X Jeg– antall forekomster av hendelsen EN V Jeg-m erfaring. Deretter den tilfeldige variabelen
(se setning 14.1) kan betraktes som normalfordelt og normalisert; derfor kan sannsynligheten for at den faller inn i intervallet (α, β) finnes ved hjelp av formelen

Fordi det Y har en binomialfordeling, . Deretter
. Ved å erstatte dette uttrykket i den forrige formelen får vi likhet (14.8).

Konsekvens.

Under betingelsene i Moivre-Laplace-setningen, sannsynligheten
at arrangementet EN vil vises i P eksperimenter akkurat k ganger, med et stort antall eksperimenter kan bli funnet ved å bruke formelen:

(14.9)

Hvor
, A
(Verdiene til denne funksjonen er gitt i spesielle tabeller).

Eksempel 3. Finn sannsynligheten for at med 100 myntkast vil antall våpenskjold være i området fra 40 til 60.

La oss bruke formel (14.8), og ta hensyn til det P= 0,5. Deretter etc= 100·0,5 = 50, så hvis
Derfor,

Eksempel 4. Under betingelsene i forrige eksempel, finn sannsynligheten for at 45 våpenskjold vil dukke opp.

Vi finner
, Deretter

Forelesning 15.

Enkle konsepter matematisk statistikk. Populasjon og utvalg. Variasjonsserier, statistiske serier. Gruppert prøve. Grupperte statistiske serier. Frekvens polygon. Prøvefordelingsfunksjon og histogram.
Matematisk statistikk omhandler etablering av mønstre som tilfeldige massefenomener er gjenstand for, basert på bearbeiding av statistiske data innhentet som et resultat av observasjoner. De to hovedoppgavene til matematisk statistikk er:

Bestemme hvordan denne statistikken skal samles inn og grupperes;

Utvikling av metoder for å analysere innhentede data avhengig av målene for studien, som inkluderer:

a) vurdering av den ukjente sannsynligheten for en hendelse; estimering av ukjent distribusjonsfunksjon; estimering av distribusjonsparametere, hvis type er kjent; vurdering av avhengighet av andre tilfeldige variabler, etc.;

b) sjekk statistiske hypoteser om typen ukjent distribusjon eller om verdiene til parametrene til en kjent distribusjon.

For å løse disse problemene må du velge mellom stor befolkning homogene objekter, et begrenset antall objekter, basert på resultatene av studien som man kan gi en prediksjon angående den studerte egenskapen til disse objektene.

La oss definere de grunnleggende begrepene i matematisk statistikk.

Befolkning – hele settet med tilgjengelige objekter.

Prøve– et sett med objekter tilfeldig valgt fra den generelle befolkningen.

BefolkningsstørrelseN og prøvestørrelsen – antall objekter i befolkningen som vurderes.

Typer prøvetaking:

Gjentatt– hvert valgt objekt returneres til den generelle befolkningen før det neste velges;

Gjentakelsesløs– det valgte objektet returneres ikke til den generelle befolkningen.
Kommentar. For å kunne trekke konklusjoner fra studien av utvalget om oppførselen til egenskapen til den generelle befolkningen som interesserer oss, er det nødvendig at utvalget riktig representerer proporsjonene til den generelle befolkningen, det vil si at det er representant(representant). Tatt i betraktning loven om store tall, kan det hevdes at denne betingelsen er oppfylt hvis hvert objekt velges tilfeldig, og for ethvert objekt er sannsynligheten for å bli inkludert i utvalget den samme.
Primær behandling av resultater.

La den tilfeldige variabelen vi er interessert i X tar verdien i prøven X 1 P 1 gang, X 2 – P 2 ganger, …, X Til - P Til ganger, og
Hvor P– prøvestørrelse. Deretter de observerte verdiene til den tilfeldige variabelen X 1 , X 2 ,…, X Til kalt alternativer, A P 1 , P 2 ,…, P Tilfrekvenser. Hvis vi deler hver frekvens på prøvestørrelsen, får vi relative frekvenser
En sekvens av alternativer skrevet i stigende rekkefølge kalles variasjon i nærheten, og en liste over alternativer og deres tilsvarende frekvenser eller relative frekvenser - statistiske serier:


x Jeg

x 1

x 2



x k

n Jeg

n 1

n 2



n k

w Jeg

w 1

w 2



w k

Når du utfører 20 serier med 10 terningkast, viste antallet på seks poeng å være 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2, 2,3 ,4,1.La oss komponere variantserie: 0,1,2,3,4,5. Statistisk serie for absolutte og relative frekvenser har formen:


x Jeg

0

1

2

3

4

5

n Jeg

3

6

5

3

2

1

w Jeg

0,15

0,3

0,25

0,15

0,1

0,05

Hvis et eller annet kontinuerlig trekk studeres, kan variasjonsserien bestå av et veldig stort antall tall. I dette tilfellet er det mer praktisk å bruke gruppert utvalg. For å oppnå det, er intervallet som inneholder alle observerte verdier av attributtet delt inn i flere like dellengdeintervaller h, og finn deretter for hvert delintervall n Jeg– summen av frekvensene til varianten inkludert i Jeg intervall. Tabellen som er satt sammen fra disse resultatene kalles gruppert statistisk nærme :

Frekvens polygon. Prøvefordelingsfunksjon og histogram.
Til visuell representasjon Du kan konstruere ulike grafer om oppførselen til den tilfeldige variabelen som studeres i utvalget. En av dem - frekvensområde: en brutt linje hvis segmenter forbinder punkter med koordinater ( x 1 , n 1), (x 2 , n 2),…, (x k , n k), Hvor x Jeg er plottet på x-aksen, og n Jeg – på ordinataksen. Hvis ikke-absolutte verdier er plottet på ordinataksen ( n Jeg), og slektning ( w Jeg) frekvens, får vi relativ frekvens polygon(Figur 1) . Ris. 1.

I analogi med fordelingsfunksjonen til en tilfeldig variabel, kan du spesifisere en bestemt funksjon, den relative frekvensen til hendelsen X x.

Definisjon 15.1.Eksempel (empirisk) distribusjonsfunksjon kall opp funksjonen F* (x), som definerer for hver verdi X relativ hyppighet av hendelsen X x. Dermed,

, (15.1)

Hvor P X– antall alternativer, mindre X, P– prøvestørrelse.
Kommentar. I motsetning til den empiriske fordelingsfunksjonen funnet eksperimentelt, fordelingsfunksjonen F(x) av den generelle befolkningen kalles teoretisk distribusjonsfunksjon. F(x) bestemmer sannsynligheten for en hendelse X x, A F* (x) – dens relative frekvens. For tilstrekkelig stor P, som følger av Bernoullis teorem, F* (x) har en tendens til å F(x).

Fra definisjonen av den empiriske fordelingsfunksjonen er det klart at dens egenskaper sammenfaller med egenskapene F(x), nemlig:


  1. 0 ≤F* (x) ≤ 1.

  2. F* (x) er en ikke-minkende funksjon.

  3. Hvis X 1 er altså det minste alternativet F* (x) = 0 at XX 1 ; Hvis X Til – det beste alternativet, altså F* (x) = 1 kl X> X Til .
For en kontinuerlig funksjon er en grafisk illustrasjon stolpediagram, det vil si en trinnformet figur som består av rektangler, hvis basis er delvis lengdeintervall h, og høyder lengder n Jeg / h(frekvenshistogram) eller w Jeg / h (histogram over relative frekvenser). I det første tilfellet er histogramområdet lik prøvevolumet, i det andre - enhet (fig. 2). Fig.2.

Forelesning 16.

Numeriske egenskaper statistisk fordeling: utvalgsmiddelverdi, variansestimater, modus- og medianestimater, initiale og sentrale momentestimater. Statistisk beskrivelse og beregning av parameterestimater for en todimensjonal tilfeldig vektor.
En av oppgavene til matematisk statistikk er å estimere verdiene til de numeriske egenskapene til den tilfeldige variabelen som studeres ved å bruke det tilgjengelige utvalget.

Definisjon 16.1.Eksempel gjennomsnitt kalt gjennomsnittet aritmetiske verdier tilfeldig variabel akseptert i utvalget:

, (16.1)

Hvor x Jeg– alternativer, n Jeg- frekvenser.

Kommentar. Utvalgets gjennomsnitt tjener til å estimere den matematiske forventningen til den tilfeldige variabelen som studeres. Spørsmålet om hvor nøyaktig et slikt estimat er vil bli diskutert senere.

Definisjon 16.2.Prøveavvik kalt

, (16.2)

EN prøve standardavvik

(16.3)

Akkurat som i teorien om tilfeldige variabler, kan det bevises at følgende formel for beregning av prøvevariansen er gyldig:

. (16.4)

Eksempel 1. La oss finne numeriske egenskaper prøve spesifisert av statistiske serier


x Jeg

2

5

7

8

n Jeg

3

8

7

2

Andre kjennetegn ved variantserien er:

- moteM 0 – alternativ å ha høyeste frekvens(i forrige eksempel M 0 = 5).

- medianT e - opsjon, som deler variasjonsserien i to deler, likt antall alternativer. Hvis tallalternativet er oddetall ( n = 2k+ 1), deretter m e = x k + 1, og for partall n = 2k
. Spesielt i eksempel 1

Estimater av de innledende og sentrale øyeblikkene (de såkalte empiriske øyeblikkene) bestemmes på samme måte som de tilsvarende teoretiske øyeblikkene:

- det innledende empiriske ordensmomentetk kalt

. (16.5)

Spesielt,
, det vil si at det innledende empiriske øyeblikket av den første orden er lik prøvegjennomsnittet.

- sentralt empirisk ordensmomentk kalt

. (16.6)

Spesielt,
, det vil si at andreordens sentrale empiriske moment er lik utvalgsvariansen.
Statistisk beskrivelse og beregning av egenskaper

todimensjonal tilfeldig vektor.
statistisk forskning For todimensjonale tilfeldige variabler er hovedoppgaven vanligvis å identifisere forholdet mellom komponentene.

Et todimensjonalt utvalg er et sett med tilfeldige vektorverdier: ( X 1 , 1), (X 2 , 2), …, (X P , y P). For det kan du bestemme prøvegjennomsnitt av komponentene:

og tilsvarende utvalgsvariasjoner og standardavvik. I tillegg kan man regne betingede gjennomsnitt: - aritmetisk gjennomsnitt av observerte verdier Y, tilsvarende X = x, Og - gjennomsnitt av observerte verdier X, tilsvarende Y = y.

Hvis det er en avhengighet mellom komponentene i en todimensjonal tilfeldig variabel, kan den ha annen type: funksjonell avhengighet hvis hver mulig verdi X samsvarer med én verdi Y, og statistisk, der en endring i en mengde fører til en endring i fordelingen av en annen. Hvis, som følge av en endring i en mengde, endres gjennomsnittsverdien av en annen, da statistisk avhengighet mellom dem kalles korrelasjon.

Forelesning 17.

Grunnleggende egenskaper statistiske egenskaper distribusjonsparametere: upartiskhet, konsistens, effektivitet. Upartiskhet og konsistens av utvalgets gjennomsnitt som et estimat av matematisk forventning. Sampling varians bias. Et eksempel på en objektiv variansestimator. Asymptotisk objektive estimater. Metoder for å konstruere estimater: maksimum sannsynlighetsmetode, momentmetode, kvantilmetode, metode minste kvadrater, Bayesiansk tilnærming til estimering.
Etter å ha oppnådd statistiske estimater av distribusjonsparametrene (prøvegjennomsnitt, utvalgsvarians, etc.), må du sørge for at de i tilstrekkelig grad tjener som en tilnærming av de tilsvarende egenskapene til populasjonen. La oss bestemme kravene som må oppfylles.

La Θ* - statistisk evaluering ukjent parameter Θ for den teoretiske fordelingen. La oss trekke ut flere prøver av samme størrelse fra befolkningen generelt P og beregne for hver av dem anslaget til parameteren Θ:
Da kan estimatet Θ* betraktes som en tilfeldig variabel som tar på seg mulige verdier Dersom den matematiske forventningen til Θ* ikke er lik den estimerte parameteren vil vi få ved beregning av estimater systematiske feil ett tegn (med overflødig if M(Θ*) >Θ, og med en ulempe hvis M(Θ*) M (Θ*) = Θ.
Definisjon 17.2. Det statistiske estimatet Θ* kalles upartisk, hvis den matematiske forventningen er lik den estimerte parameteren Θ for en hvilken som helst prøvestørrelse:

M(Θ*) = Θ. (17.1)

Fordrevet kalt et estimat hvis matematiske forventning ikke er lik den estimerte parameteren.

Det er imidlertid ikke upartiskhet tilstrekkelig tilstand god tilnærming til den sanne verdien av den estimerte parameteren. Hvis, i dette tilfellet, mulige verdier av Θ* kan avvike betydelig fra gjennomsnittsverdien, det vil si at spredningen av Θ* er stor, kan verdien funnet fra dataene til en prøve avvike betydelig fra den estimerte parameteren. Derfor er det nødvendig å pålegge restriksjoner på spredningen.
Definisjon 17.2. Den statistiske vurderingen kalles effektive, hvis det er for en gitt prøvestørrelse P har minst mulig variasjon.
Ved vurdering av store utvalg er statistiske estimater også underlagt kravet om konsistens.
Definisjon 17.3.Rik kalles et statistisk estimat som, når P→∞ tenderer i sannsynlighet til den estimerte parameteren (hvis dette estimatet er objektivt, vil det være konsistent hvis ved P→∞ dens varians har en tendens til 0).
La oss sørge for det representerer et objektivt estimat av den matematiske forventningen M(X).

Vi vil betrakte det som en tilfeldig variabel, og X 1 , X 2 ,…, X P, det vil si verdiene til den tilfeldige variabelen som studeres som utgjør utvalget, – som uavhengige, identisk fordelte stokastiske variabler X 1 , X 2 ,…, X P, har matematiske forventninger EN. Av egenskapene til den matematiske forventningen følger det at

Men, siden hver av mengdene X 1 , X 2 ,…, X P har samme fordeling som befolkningen generelt, EN = M(X), det er M(
) = M(X), som var det som måtte bevises. Utvalgets gjennomsnitt er ikke bare et objektivt, men også et konsistent estimat av den matematiske forventningen. Antar at X 1 , X 2 ,…, X P har begrensede varianser, så følger det av Chebyshevs teorem at deres aritmetiske gjennomsnitt, det vil si med økende P tenderer i sannsynlighet til den matematiske forventningen EN hver av deres verdier, det vil si å M(X). Følgelig er utvalgets gjennomsnitt et konsistent estimat av den matematiske forventningen.

I motsetning til prøvegjennomsnittet, prøveavvik er et partisk estimat av populasjonsvariasjonen. Det kan bevises

, (17.2)

Hvor D G sann mening populasjonsvariasjoner. Et annet estimat av spredningen kan foreslås: korrigert varianss ² , beregnet med formelen

. (17.3)

Et slikt estimat vil være objektivt. Det matcher korrigert gjennomsnitt standardavvik

. (17.4)

Definisjon 17.4. Evalueringen av noen attributter kalles asymptotisk objektiv, hvis for eksempel X 1 , X 2 , …, X P

, (17.5)

Hvor X– sann verdi av den studerte mengden.
Metoder for å konstruere vurderinger.
1. Maksimal sannsynlighetsmetode.
La X– diskret tilfeldig variabel, som som et resultat P tester tok verdier X 1 , X 2 , …, X P. La oss anta at vi kjenner fordelingsloven for denne størrelsen, bestemt av parameteren Θ, men den numeriske verdien til denne parameteren er ukjent. La oss finne punktanslaget.

La R(X Jeg, Θ) er sannsynligheten for at verdien som et resultat av testen X vil ta verdien X Jeg. La oss ringe sannsynlighetsfunksjon diskret tilfeldig variabel X argumentfunksjon Θ, bestemt av formelen:

L (X 1 , X 2 , …, X P ; Θ) = s(x 1 ,Θ) s(x 2,Θ)... s(x n ,Θ).

Så, som et punktestimat av parameteren Θ, tar vi verdien Θ* = Θ( X 1 , X 2 , …, X P), hvor sannsynlighetsfunksjonen når sitt maksimum. Estimatet Θ* kalles maksimal sannsynlighetsestimat.

Siden funksjonene L og ln L når et maksimum ved samme verdi av Θ, er det mer praktisk å se etter maksimum ln Llogaritmisk funksjon troverdighet. For å gjøre dette trenger du:


Fordeler med maksimum sannsynlighetsmetoden: de oppnådde estimatene er konsistente (selv om de kan være partiske), fordelt asymptotisk normalt kl. store verdier P og har den minste variansen sammenlignet med andre asymptotisk normale karakterer; hvis det for den estimerte parameteren Θ er et effektivt estimat Θ*, så har sannsynlighetsligningen en unik løsning Θ*; metoden utnytter prøvedata mest mulig og er derfor spesielt nyttig ved små prøver.

Ulempen med maksimum sannsynlighetsmetoden: beregningsmessig kompleksitet.
For en kontinuerlig tilfeldig variabel med en kjent type distribusjonstetthet f(x) og en ukjent parameter Θ, har sannsynlighetsfunksjonen formen:

L (X 1 , X 2 , …, X P ; Θ) = f(x 1 ,Θ) f(x 2,Θ)... f(x n ,Θ).

Maksimal sannsynlighetsestimat for en ukjent parameter utføres på samme måte som for en diskret tilfeldig variabel.
2. Metode for øyeblikk.
Metoden for momenter er basert på det faktum at de innledende og sentrale empiriske momentene er konsistente estimater av henholdsvis de innledende og sentrale teoretiske momentene, slik at vi kan sette likhetstegn mellom teoretiske poeng tilsvarende empiriske øyeblikk av samme orden.

Hvis distribusjonstetthetstypen er spesifisert f(x, Θ), bestemt av én ukjent parameter Θ, så for å estimere denne parameteren er det nok å ha én ligning. For eksempel kan man likestille innledende øyeblikk første orden:

,

for derved å oppnå en ligning for å bestemme Θ. Løsningen Θ* vil være et punktestimat av parameteren, som er en funksjon av prøvegjennomsnittet og derfor av prøvevarianten:

Θ = ψ ( X 1 , X 2 , …, X P).

Hvis kjente arter distribusjonstetthet f(x, Θ 1, Θ 2) bestemmes av to ukjente parametere Θ 1 og Θ 2, da er det nødvendig å lage to ligninger, for eksempel

ν 1 = M 1, μ 2 = T 2 .

Herfra
- et system av to ligninger med to ukjente Θ 1 og Θ 2. Løsningene vil være punktestimat Θ 1 * og Θ 2 * - funksjonene til prøvetakingsalternativet:

Θ 1 = ψ 1 ( X 1 , X 2 , …, X P),

Θ 2 = ψ 2 ( X 1 , X 2 , …, X P).
3. Minste kvadraters metode.

Hvis du trenger å estimere avhengigheten av mengder Og X, og formen til funksjonen som forbinder dem er kjent, men verdiene til koeffisientene som er inkludert i den er ukjente; deres verdier kan estimeres fra den tilgjengelige prøven ved å bruke minste kvadraters metode. For dette formålet funksjonen = φ ( X) er valgt slik at summen av kvadrerte avvik av de observerte verdiene 1 , 2 ,…, P fra φ( X Jeg) var minimal:

I dette tilfellet er det nødvendig å finne stasjonært punkt funksjoner φ( x; en, b, c), det vil si løse systemet:

(løsningen er selvfølgelig bare mulig i tilfellet når den spesifikke formen for funksjonen φ er kjent).

La oss se på valget av parametere som et eksempel lineær funksjon minste kvadraters metode.

For å evaluere parametrene EN Og b i funksjon y = øks + b, finner vi
Deretter
. Herfra
. Å dele begge resulterende ligninger med P og huske definisjonene av empiriske øyeblikk, kan vi få uttrykk for EN Og b som:

. Derfor er sammenhengen mellom X Og kan spesifiseres i skjemaet:


4. Bayesiansk tilnærming til å innhente estimater.
la ( Y, X) – tilfeldig vektor som tettheten er kjent for R(|x) betinget fordeling Y ved hver verdi X = x. Hvis eksperimentet bare resulterer i verdier Y, og de tilsvarende verdiene X ukjent, så for å anslå noen gitt funksjon φ( X) som sin omtrentlige verdi, foreslås det å se etter den betingede matematiske forventningen M (φ‌‌( X)‌‌‌‌‌‌|Y), beregnet med formelen:

, Hvor , R(X X, q(y) – tetthet av ubetinget fordeling Y. Et problem kan bare løses når det er kjent R(X). Noen ganger er det imidlertid mulig å konstruere et konsistent estimat for q(y), avhengig av verdiene som er oppnådd i prøven Y.

Forelesning 18.

Intervallestimering av ukjente parametere. Beregningsnøyaktighet, tillitssannsynlighet(pålitelighet), konfidensintervall. Konstruksjon av konfidensintervaller for å estimere den matematiske forventningen til en normalfordeling med kjent og ukjent varians. Konfidensintervaller for å estimere standardavviket til en normalfordeling.
Ved prøvetaking av et lite volum punktestimat kan avvike vesentlig fra den estimerte parameteren, som fører til grove feil. Derfor er det bedre å bruke i dette tilfellet intervallanslag , det vil si angir intervallet der den sanne verdien av den estimerte parameteren faller med en gitt sannsynlighet. Jo kortere lengden på dette intervallet er, desto mer nøyaktig er parameterestimatet. Derfor, hvis ulikheten | Θ* - Θ | 0 karakteriserer estimeringsnøyaktighet(jo mindre δ, jo mer nøyaktig er estimatet). Men statistiske metoder la oss bare si at denne ulikheten er tilfredsstilt med en viss sannsynlighet.

Definisjon 18.1.Pålitelighet (sikkerhetssannsynlighet) estimat Θ* av parameteren Θ er sannsynligheten γ for at ulikheten er tilfredsstilt | Θ* - Θ |
s (Θ* - δ
Dermed er γ sannsynligheten for at Θ faller i intervallet (Θ* - δ, Θ* + δ).

Definisjon 18.2.Klarert er intervallet som den ukjente parameteren med en gitt pålitelighet γ faller i.
Konstruere konfidensintervaller.
1. Konfidensintervall for å estimere den matematiske forventningen til en normalfordeling med kjent varians.

La den tilfeldige variabelen som studeres X er fordelt i henhold til normalloven med et kjent middelkvadrat σ, og det er nødvendig å estimere sin matematiske forventning basert på verdien av prøvemiddelverdien EN. Vi vil vurdere utvalgsgjennomsnittet som en tilfeldig variabel og verdiene er eksempelalternativet X 1 , X 2 ,…, X P som identisk fordelte uavhengige tilfeldige variabler X 1 , X 2 ,…, X P, som hver har en matematisk forventning EN og standardavvik σ. Hvori M() = EN,
(vi bruker egenskapene til matematisk forventning og spredning av summen av uavhengige tilfeldige variabler). La oss estimere sannsynligheten for ulikheten
. La oss bruke formelen for sannsynligheten for at en normalfordelt tilfeldig variabel faller inn i et gitt intervall:

R (
) = 2Ф
. Deretter, tatt i betraktning det faktum at, R() = 2F
=

2F( t), Hvor
. Herfra
, og den forrige likheten kan skrives om som følger:

. (18.1)

Så verdien av den matematiske forventningen EN med sannsynlighet (pålitelighet) faller γ inn i intervallet
, hvor verdien t bestemmes fra tabellene for Laplace-funksjonen slik at likheten 2Ф( t) = γ.
Eksempel. La oss finne konfidensintervallet for den matematiske forventningen til en normalfordelt tilfeldig variabel hvis utvalgsstørrelsen P = 49,
σ = 1,4, og konfidenssannsynlighet γ = 0,9.

La oss definere t, hvor Ф( t) = 0,9:2 = 0,45: t= 1,645. Deretter

, eller 2,471 a a med en pålitelighet på 0,9.
2. Konfidensintervall for å estimere den matematiske forventningen til en normalfordeling med ukjent varians.

Hvis det er kjent at den tilfeldige variabelen under studien X fordelt etter normalloven med ukjent standardavvik, for så å søke konfidensintervall for sin matematiske forventning konstruerer vi en ny tilfeldig variabel

, (18.2)

Hvor - utvalgsgjennomsnitt, s– korrigert varians, P– prøvestørrelse. Denne tilfeldige variabelen, hvis mulige verdier vil bli betegnet med t, har en Studentfordeling (se Forelesning 12) med k = n– 1 frihetsgrad.

Siden Student distribusjon tetthet
, Hvor
, er ikke eksplisitt avhengig av EN og σ, kan du stille inn sannsynligheten for at den faller inn i et visst intervall (- t γ , t γ ), under hensyntagen til jevnheten til fordelingstettheten, som følger:
. Herfra får vi:

(18.3)

Dermed ble det oppnådd et konfidensintervall for EN, Hvor t γ kan finnes fra den tilsvarende tabellen for gitt P og y.

Eksempel. La prøvestørrelsen P = 25, = 3, s= 1,5. La oss finne konfidensintervallet for EN ved y = 0,99. Fra tabellen finner vi det t γ (P= 25, y = 0,99) = 2,797. Deretter
, eller 2.161a a med en sannsynlighet på 0.99.
3. Konfidensintervaller for å estimere standardavviket til en normalfordeling.

Vi vil se etter et konfidensintervall for skjemaet ( s – δ, s), Hvor s er det korrigerte prøvestandardavviket, og for δ er følgende betingelse oppfylt: s (|σ – s|
La oss skrive denne ulikheten i formen:
eller, utpeke
,

La oss vurdere den tilfeldige variabelen χ, bestemt av formelen

,

som er fordelt etter kjikvadratloven med P-1 frihetsgrader (se forelesning 12). Dens distribusjonstetthet

avhenger ikke av den estimerte parameteren σ, men avhenger kun av prøvestørrelsen P. La oss transformere ulikhet (18.4) slik at den har formen χ 1 La oss anta at q

,

eller, etter å ha multiplisert med
,
. Derfor,
. Deretter
Det er tabeller for kjikvadratfordelingen som du kan finne fra q i henhold til gitt P og γ uten å løse denne ligningen. Dermed etter å ha beregnet verdien fra prøven s og bestemme verdien fra tabellen q, kan du finne konfidensintervallet (18.4), der verdien σ faller med en gitt sannsynlighet γ.
Kommentar. Hvis q> 1, og tatt i betraktning betingelsen σ > 0, vil konfidensintervallet for σ ha grenser

. (18.5)

La P = 20, s= 1,3. La oss finne konfidensintervallet for σ for en gitt pålitelighet γ = 0,95. Fra den tilsvarende tabellen finner vi q (n= 20, y = 0,95) = 0,37. Derfor er grensene for konfidensintervallet: 1,3(1-0,37) = 0,819 og 1,3(1+0,37) = 1,781. Altså 0,819

Vi gjennomfører dette beviset i to trinn. Anta først at det er det, og merk at i dette tilfellet D(S„) ved sumspredningsteoremet. I følge Chebyshevs ulikhet, for enhver t > 0

For t > n er venstre side mindre enn, og den siste verdien har en tendens til null. Dette fullfører den første delen av beviset.

La oss nå forkaste den restriktive betingelsen for eksistensen av D(). Dette tilfellet reduseres til det forrige ved trunkeringsmetoden.

La oss definere to nye sett med tilfeldige variabler avhengig av, som følger:

U k =, V k =0, hvis (2,2)

U k = 0, V k =, if

Her er k=1,…, n og fast. Deretter

for alle k.

La (f(j)) være sannsynlighetsfordelingen til tilfeldige variabler (det samme for alle j). Vi antok at = M() eksisterer, så summen

avgrenset. Så er det også

hvor summeringen utføres over alle de j som. Merk at selv om det avhenger av n, er det det samme for

U 1, U 2, ..., U n. I tillegg, for, og derfor for vilkårlig > 0 og alle tilstrekkelig store n

U k er gjensidig uavhengige, og deres sum U 1 +U 2 +...+U n kan behandles på nøyaktig samme måte som med X k i tilfelle av endelig spredning, ved å anvende Chebyshevs ulikhet, får vi på samme måte som (2.1)


På grunn av (2.6) følger det at

Siden serier (2.4) konvergerer, har den siste summen en tendens til null når n øker. Således, for en tilstrekkelig stor n

og derfor

P(V1 +...+Vn0). (2.12)

Men fra både (2.9) og (2.12) får vi

Siden de er vilkårlige, høyre del kan gjøres så liten som ønskelig, noe som fullfører beviset.

Teori om "ufarlige" spill

I videre analyse av essensen av loven om store tall, vil vi bruke den tradisjonelle terminologien til spillere, selv om våre betraktninger åpner for likt og mer seriøse applikasjoner, og våre to grunnleggende antakelser er mer realistiske i statistikk og fysikk enn i gambling. Først, la oss anta at spilleren har ubegrenset kapital, slik at ingen tap kan føre til at spillet avsluttes. (Å avvise denne antagelsen fører til spillerens ødeleggelsesproblem, som alltid fascinerer studenter av sannsynlighetsteori.) For det andre, anta at spilleren ikke har temperamentet til å avbryte spillet når han måtte ønske det: antall n forsøk må fastsettes på forhånd og må ikke avhenge av turspillene. Ellers ville spilleren, velsignet med ubegrenset kapital, ventet på en rekke suksesser og i rett øyeblikk stoppe spillet. En slik spiller er ikke interessert i den sannsynlige fluktuasjonen i et gitt øyeblikk, men i de maksimale svingningene i en lang rekke spill, som beskrives mer av loven om den itererte logaritmen enn av loven om store tall.

La oss introdusere den tilfeldige variabelen k som (positiv eller negativ) gevinst for kth repetisjon spill. Da er summen S n = 1 +...+ k den totale gevinsten etter n repetisjoner av spillet. Hvis spilleren før hver repetisjon betaler et (ikke nødvendigvis positivt) bidrag for retten til å delta i spillet, representerer n det totale bidraget betalt av ham, og S n er den totale nettogevinsten. Loven om store tall gjelder hvis p=M(k) eksisterer. Grovt sett er det for stor n ganske plausibelt at forskjellen S n - vil virke liten sammenlignet med n. Derfor, hvis mindre enn p, så vil spilleren for stor n sannsynligvis ha en utbetaling i størrelsesorden. På samme måte resulterer et bidrag nesten helt sikkert i tap. Kort sagt, sjanse er gunstig for spilleren, og sjanse er ugunstig.

Merk at vi ennå ikke har sagt noe om saken. I dette tilfellet er den eneste mulige konklusjonen at hvis og er stor nok, vil den totale gevinsten eller tapet S n - n med meget stor sannsynlighet være liten sammenlignet med n. Men det er ikke kjent om S n - n vil slå ut. å være positiv eller negativ, dvs. om spillet vil være lønnsomt eller ødeleggende. Dette ble ikke tatt hensyn til klassisk teori, som kalte en harmløs pris, og et spill med "ufarlig". Du må forstå at et "ufarlig" spill faktisk kan være både klart lønnsomt og ødeleggende.

Det er klart at i " vanlig sak» det er ikke bare M(k), men også D(k). I dette tilfellet er loven om store tall supplert med sentralgrensesetningen, og sistnevnte sier at det er svært sannsynlig at i et "ufarlig" spill vil nettogevinsten som følge av et langt spill S n - n være på størrelsesorden n 1/2 og at for tilstrekkelig stor n vil denne gevinsten ha omtrent like sjanser for å være positiv eller negativ. Således, hvis den sentrale grensesetningen gjelder, så er begrepet "ufarlig" spill berettiget, selv om vi også i dette tilfellet har å gjøre med en grensesetning, som understrekes av ordene "som et resultat av et langt spill." En nøye analyse viser at konvergensen i (1.3) forverres når spredningen øker. Hvis stor, vil den normale tilnærmingen bare være effektiv for ekstremt stor n.

For å være spesifikk, la oss forestille oss en maskin der spilleren kan vinne (10--1) rubler når han plasserer en rubel i den med en sannsynlighet på 10, og i andre tilfeller taper den senkede rubelen. Her har vi Bernoulli-tester og spillet er «ufarlig». Etter å ha fullført en million tester, vil spilleren betale en million rubler for det. I løpet av denne tiden kan han vinne 0, 1,2,... ganger. I henhold til Poisson-tilnærmingen for binomial fordeling, nøyaktig med noen få desimaler, er sannsynligheten for å vinne nøyaktig k ganger lik e -1 /k!. Dermed med en sannsynlighet på 0,368. . . spilleren vil tape en million, og med samme sannsynlighet vil han bare få tilbake utgiftene sine; han har en sannsynlighet på 0,184... for å skaffe seg nøyaktig en million, osv. Her tilsvarer 10 6 forsøk en enkelt prøve i et spill med en utbetaling som har en Poisson-fordeling.

Åpenbart gir det ingen mening å anvende loven om store tall i slike situasjoner. Denne ordningen inkluderer forsikring mot brann, bilulykker osv. Et stort beløp er utsatt for risiko, men tilsvarende sannsynlighet er svært liten. Men her er det vanligvis kun én prøve per år, så antallet n prøver blir aldri stort. For den forsikrede er spillet ikke nødvendigvis "ufarlig", selv om det kan være ganske økonomisk lønnsomt. Loven om store tall har ingenting med det å gjøre. Når det gjelder forsikringsselskapet, handler det om et stort antall spill, men på grunn av den store variansen dukker det fortsatt opp tilfeldige svingninger. Forsikringspremier må settes for å hindre store tap i enkelte år, og derfor er selskapet interessert i snarere en oppgave om ruin enn loven om store tall.

Når variansen er uendelig, blir begrepet "ufarlig" lek meningsløst; det er ingen grunn til å tro at den totale nettogevinsten S n - n svinger rundt null. Egentlig. Det er eksempler på "ufarlige" spill der sannsynligheten for at spilleren vil lide et nettotap som et resultat, er tilbøyelig. Loven om store tall sier bare at dette tapet vil ha en verdi av mindre størrelse enn n. Mer kan imidlertid ikke sies. Hvis en n danner en vilkårlig sekvens, og en n /n0, så er det mulig å arrangere et "ufarlig" spill der sannsynligheten for at det totale nettotapet som følge av n repetisjoner av spillet overstiger n tenderer til én.