Biografije Karakteristike Analiza

Empirijska funkcija distribucije, svojstva. Empirijska funkcija distribucije Koristeći ovaj uzorak, konstruirajte empirijsku funkciju distribucije

Kao što je poznato, zakon raspodjele slučajne varijable može se odrediti na različite načine. Diskretna slučajna varijabla može se specificirati pomoću niza distribucije ili integralne funkcije, a kontinuirana slučajna varijabla može se specificirati pomoću integrala ili diferencijalne funkcije. Razmotrimo selektivne analoge ove dvije funkcije.

Neka postoji uzorak skupa vrijednosti neke slučajne varijable volumena a svaka opcija iz ovog skupa povezana je sa svojom učestalošću. Neka dalje je neki realni broj, i – broj uzoraka vrijednosti slučajne varijable
, manji .Onda broj je učestalost količinskih vrijednosti opaženih u uzorku x, manji , oni. učestalost pojavljivanja događaja
. Kad se promijeni x u općem slučaju promijenit će se i vrijednost . To znači da relativna učestalost je funkcija argumenta . A budući da se ova funkcija nalazi iz uzoraka podataka dobivenih kao rezultat eksperimenata, naziva se selektivna ili empirijski.

Definicija 10.15. Empirijska funkcija distribucije(funkcija distribucije uzorkovanja) je funkcija
, definirajući za svaku vrijednost x relativna učestalost događaja
.

(10.19)

Za razliku od funkcije distribucije empirijskog uzorka, funkcija distribucije F(x) opće populacije naziva se teorijska funkcija distribucije. Razlika između njih je u tome što teorijska funkcija F(x) određuje vjerojatnost događaja
, a empirijski je relativna učestalost istog događaja. Iz Bernoullijevog teorema slijedi

,
(10.20)

oni. u cjelini vjerojatnost
i relativna učestalost događaja
, tj.
malo razlikuju jedna od druge. Iz ovoga proizlazi da je uputno koristiti empirijsku funkciju distribucije uzorka za aproksimaciju teorijske (integralne) funkcije distribucije opće populacije.

Funkcija
I
imaju ista svojstva. To proizlazi iz definicije funkcije.

Svojstva
:


Primjer 10.4. Konstruirajte empirijsku funkciju na temelju dane distribucije uzorka:

Mogućnosti

Frekvencije

Riješenje: Pronađimo veličinu uzorka n= 12+18+30=60. Najmanja opcija
, stoga,
na
. Značenje
, naime
promatrano 12 puta, dakle:

=
na
.

Značenje x< 10, naime
I
promatrani su 12+18=30 puta, dakle,
=
na
. Na

.

Tražena empirijska funkcija distribucije:

=

Raspored
prikazano na sl. 10.2

R
je. 10.2

Kontrolna pitanja

1. Koje glavne probleme rješava matematička statistika? 2. Opća i ogledna populacija? 3. Definirajte veličinu uzorka. 4. Koji se uzorci nazivaju reprezentativnim? 5. Pogreške reprezentativnosti. 6. Osnovne metode uzorkovanja. 7. Pojmovi frekvencije, relativne frekvencije. 8. Pojam statističkih serija. 9. Zapišite Sturgesovu formulu. 10. Formulirajte koncepte raspona uzorka, medijana i modusa. 11. Poligon frekvencija, histogram. 12. Koncept bodovne procjene populacije uzorka. 13. Pristrana i nepristrana bodovna procjena. 14. Formulirajte pojam prosjeka uzorka. 15. Formulirajte pojam varijance uzorka. 16. Formulirajte pojam standardne devijacije uzorka. 17. Formulirajte pojam koeficijenta varijacije uzorka. 18. Formulirajte pojam geometrijske sredine uzorka.

Određivanje empirijske funkcije distribucije

Neka je $X$ slučajna varijabla. $F(x)$ je funkcija distribucije zadane slučajne varijable. Provest ćemo $n$ eksperimenata na danoj slučajnoj varijabli pod istim uvjetima, neovisno jedan o drugom. U ovom slučaju dobivamo niz vrijednosti $x_1,\ x_2\ $, ... ,$\ x_n$, koji se naziva uzorak.

Definicija 1

Svaka vrijednost $x_i$ ($i=1,2\ $, ... ,$ \ n$) naziva se varijanta.

Jedna procjena teorijske funkcije distribucije je empirijska funkcija distribucije.

Definicija 3

Empirijska funkcija distribucije $F_n(x)$ je funkcija koja za svaku vrijednost $x$ određuje relativnu učestalost događaja $X \

gdje je $n_x$ broj opcija manji od $x$, $n$ je veličina uzorka.

Razlika između empirijske funkcije i teorijske je u tome što teorijska funkcija određuje vjerojatnost događaja $X

Svojstva empirijske funkcije distribucije

Razmotrimo sada nekoliko osnovnih svojstava funkcije distribucije.

    Raspon funkcije $F_n\lijevo(x\desno)$ je segment $$.

    $F_n\lijevo(x\desno)$ je neopadajuća funkcija.

    $F_n\lijevo(x\desno)$ je lijevo kontinuirana funkcija.

    $F_n\left(x\right)$ je komadno konstantna funkcija i raste samo u točkama vrijednosti slučajne varijable $X$

    Neka $X_1$ bude najmanja, a $X_n$ najveća opcija. Zatim $F_n\lijevo(x\desno)=0$ za $(x\le X)_1$ i $F_n\lijevo(x\desno)=1$ za $x\ge X_n$.

Uvedimo teorem koji povezuje teorijsku i empirijsku funkciju.

Teorem 1

Neka je $F_n\left(x\right)$ empirijska funkcija distribucije, a $F\left(x\right)$ teorijska funkcija distribucije općeg uzorka. Tada vrijedi jednakost:

\[(\mathop(lim)_(n\to \infty ) (|F)_n\lijevo(x\desno)-F\lijevo(x\desno)|=0\ )\]

Primjeri zadataka nalaženja empirijske funkcije distribucije

Primjer 1

Neka distribucija uzorkovanja ima sljedeće podatke zabilježene pomoću tablice:

Slika 1.

Pronađite veličinu uzorka, izradite empirijsku funkciju distribucije i iscrtajte je.

Veličina uzorka: $n=5+10+15+20=50$.

Prema svojstvu 5, imamo da je za $x\le 1$ $F_n\left(x\right)=0$, a za $x>4$ $F_n\left(x\right)=1$.

$x vrijednost

$x vrijednost

$x vrijednost

Tako dobivamo:

Slika 2.

Slika 3.

Primjer 2

Od gradova središnjeg dijela Rusije nasumično je odabrano 20 gradova za koje su dobiveni sljedeći podaci o cijenama javnog prijevoza: 14, 15, 12, 12, 13, 15, 15, 13, 15, 12, 15, 14 , 15, 13 , 13, 12, 12, 15, 14, 14.

Napravite empirijsku funkciju distribucije za ovaj uzorak i nacrtajte je.

Zapišimo uzorke vrijednosti uzlaznim redoslijedom i izračunajmo učestalost svake vrijednosti. Dobijamo sljedeću tablicu:

Slika 4.

Veličina uzorka: $n=20$.

Prema svojstvu 5, imamo da za $x\le 12$ $F_n\left(x\right)=0$, a za $x>15$ $F_n\left(x\right)=1$.

$x vrijednost

$x vrijednost

$x vrijednost

Tako dobivamo:

Slika 5.

Nacrtajmo empirijsku distribuciju:

Slika 6.

Izvornost: 92,12 $\%$.

Saznajte koja je empirijska formula. U kemiji, EP je najjednostavniji način za opisivanje spoja—u biti popis elemenata koji čine spoj na temelju njihovog postotka. Treba napomenuti da ova jednostavna formula ne opisuje narudžba atoma u spoju, jednostavno označava od kojih se elemenata sastoji. Na primjer:

  • Spoj koji se sastoji od 40,92% ugljika; 4,58% vodika i 54,5% kisika imat će empirijsku formulu C 3 H 4 O 3 (o primjeru kako pronaći EF ovog spoja raspravljat ćemo u drugom dijelu).
  • Razumjeti pojam "postotni sastav"."Postotni sastav" odnosi se na postotak svakog pojedinačnog atoma u cijelom dotičnom spoju. Da biste pronašli empirijsku formulu spoja, morate znati postotni sastav spoja. Ako tražite empirijsku formulu za domaću zadaću, najvjerojatnije će biti navedeni postoci.

    • Da bi se u laboratoriju utvrdio postotni sastav kemijskog spoja, on se podvrgava nekim fizičkim eksperimentima, a zatim kvantitativnoj analizi. Osim ako niste u laboratoriju, ne morate raditi ove eksperimente.
  • Imajte na umu da ćete se morati baviti gram atomima. Gram atom je određena količina tvari čija je masa jednaka njezinoj atomskoj masi. Da biste pronašli gram atoma, trebate upotrijebiti sljedeću jednadžbu: Postotak elementa u spoju dijeli se s atomskom masom elementa.

    • Recimo, na primjer, da imamo spoj koji sadrži 40,92% ugljika. Atomska masa ugljika je 12, tako da bi naša jednadžba bila 40,92 / 12 = 3,41.
  • Znati pronaći atomske omjere. Kada radite sa spojem, dobit ćete više od jednog grama atoma. Nakon što pronađete sve gram atome svog spoja, pogledajte ih. Kako biste pronašli atomski omjer, morat ćete odabrati najmanju vrijednost gram-atoma koju ste izračunali. Tada ćete morati podijeliti sve gram atome u najmanji gram atom. Na primjer:

    • Recimo da radite sa spojem koji sadrži tri grama atoma: 1,5; 2. i 2.5. Najmanji od ovih brojeva je 1,5. Stoga, da biste pronašli omjer atoma, morate sve brojeve podijeliti s 1,5 i staviti znak omjera između njih : .
    • 1,5 / 1,5 = 1. 2 / 1,5 = 1,33. 2,5 / 1,5 = 1,66. Prema tome, omjer atoma je 1: 1,33: 1,66 .
  • Shvatite kako pretvoriti vrijednosti atomskog omjera u cijele brojeve. Kada pišete empirijsku formulu, morate koristiti cijele brojeve. To znači da ne možete koristiti brojeve poput 1,33. Nakon što pronađete omjer atoma, trebate pretvoriti razlomke (kao 1,33) u cijele brojeve (kao 3). Da biste to učinili, morate pronaći cijeli broj, množeći svaki broj atomskog omjera kojim ćete dobiti cijele brojeve. Na primjer:

    • Pokušajte 2. Pomnožite brojeve atomskog omjera (1, 1,33 i 1,66) s 2. Dobit ćete 2, 2,66 i 3,32. To nisu cijeli brojevi, pa 2 nije prikladno.
    • Pokušajte s 3. Ako pomnožite 1, 1,33 i 1,66 s 3, dobit ćete 3, 4 odnosno 5. Stoga atomski omjer cijelih brojeva ima oblik 3: 4: 5 .
  • Prosjek uzorka.

    Neka se izdvoji uzorak veličine n za proučavanje opće populacije u pogledu kvantitativne karakteristike X.

    Srednja vrijednost uzorka je aritmetička sredina karakteristike u populaciji uzorka.

    Varijanca uzorka.

    Kako bi se uočila disperzija kvantitativnog obilježja vrijednosti uzorka oko njegove prosječne vrijednosti, uvodi se sumarno obilježje - varijanca uzorka.

    Varijanca uzorka je aritmetička sredina kvadrata odstupanja promatranih vrijednosti obilježja od njihove srednje vrijednosti.

    Ako su sve vrijednosti karakteristike uzorka različite, tada

    Ispravljena varijanca.

    Varijanca uzorka je pristrana procjena varijance populacije, tj. matematičko očekivanje varijance uzorka nije jednako procijenjenoj općoj varijanci, već je jednako

    Da biste ispravili varijancu uzorka, jednostavno je pomnožite s razlomkom

    Koeficijent korelacije uzorka nalazi se formulom

    gdje su standardne devijacije uzorka vrijednosti i .

    Koeficijent korelacije uzorka pokazuje blizinu linearnog odnosa između i : što je bliže jedinici, to je jači linearni odnos između i .

    23. Frekvencijski poligon je izlomljena linija čiji segmenti spajaju točke. Za konstruiranje frekvencijskog poligona varijante se nanose na apscisnu os, a odgovarajuće frekvencije na ordinatnu os, a točke se spajaju odsječcima.

    Poligon relativne frekvencije konstruiran je na sličan način, osim što su relativne frekvencije iscrtane na osi ordinata.

    Frekvencijski histogram je stepenasti lik koji se sastoji od pravokutnika, čije su baze parcijalni intervali duljine h, a visine jednake omjeru. Za konstruiranje frekvencijskog histograma, parcijalni intervali položeni su na apscisnu os, a segmenti paralelni s apscisnom osi na udaljenosti (visini) nacrtani su iznad njih. Površina i-tog pravokutnika jednaka je zbroju frekvencija i-o intervala, stoga je površina histograma frekvencija jednaka zbroju svih frekvencija, tj. veličina uzorka.

    Empirijska funkcija distribucije

    Gdje n x- broj vrijednosti uzorka manji od x; n- veličina uzorka.

    22Definirajmo osnovne pojmove matematičke statistike

    .Osnovni pojmovi matematičke statistike. Populacija i uzorak. Varijacijski nizovi, statistički nizovi. Grupirani uzorak. Grupirane statističke serije. Frekvencijski poligon. Funkcija distribucije uzorka i histogram.

    Populacija– cijeli skup dostupnih objekata.

    Uzorak– skup predmeta nasumično odabranih iz opće populacije.

    Poziva se niz opcija napisanih uzlaznim redoslijedom varijacijski u blizini i popis opcija i njihove odgovarajuće frekvencije ili relativne frekvencije - statističke serije: nasumično odabrano iz opće populacije.

    Poligon frekvencije naziva se izlomljena linija, čiji segmenti spajaju točke.

    Histogram učestalosti je stepenasti lik koji se sastoji od pravokutnika, čije su osnovice parcijalni intervali duljine h, a visine jednake omjeru .

    Funkcija uzorka (empirijske) distribucije pozvati funkciju F*(x), definirajući za svaku vrijednost x relativna učestalost događaja x< x.

    Ako se proučava neka kontinuirana značajka, tada se niz varijacija može sastojati od vrlo velikog broja brojeva. U ovom slučaju prikladnije je koristiti grupirani uzorak. Da bismo ga dobili, interval koji sadrži sve promatrane vrijednosti atributa dijeli se na nekoliko jednakih parcijalnih intervala duljine h, a zatim pronađite za svaki parcijalni interval n i– zbroj učestalosti varijante uključene u ja th interval.

    20. Zakon velikih brojeva ne treba shvatiti kao neki opći zakon povezan s velikim brojevima. Zakon velikih brojeva je općenito ime za nekoliko teorema, iz kojih proizlazi da s neograničenim povećanjem broja pokušaja prosječne vrijednosti teže određenim konstantama.

    To uključuje teoreme Chebysheva i Bernoullija. Čebiševljev teorem je najopćenitiji zakon velikih brojeva.

    Dokaz teorema, objedinjenih izrazom "zakon velikih brojeva", temelji se na Chebyshevovoj nejednakosti, koja utvrđuje vjerojatnost odstupanja od svog matematičkog očekivanja:

    19Pearsonova distribucija (chi - kvadrat) - distribucija slučajne varijable

    gdje su slučajne varijable X 1, X 2,…, X n nezavisni i imaju istu distribuciju N(0,1). U ovom slučaju broj termina, tj. n, naziva se "broj stupnjeva slobode" distribucije hi-kvadrat.

    Hi-kvadrat distribucija koristi se pri procjeni varijance (korištenjem intervala pouzdanosti), pri testiranju hipoteza slaganja, homogenosti, neovisnosti,

    Distribucija t Studentov t je distribucija slučajne varijable

    gdje su slučajne varijable U I x neovisan, U ima standardnu ​​normalnu distribuciju N(0,1), i x– chi raspodjela – kvadrat c n stupnjevi slobode. pri čemu n naziva se “broj stupnjeva slobode” Studentove distribucije.

    Koristi se pri procjeni matematičkog očekivanja, vrijednosti prognoze i drugih karakteristika pomoću intervala pouzdanosti, testiranja hipoteza o vrijednostima matematičkih očekivanja, koeficijenata regresije,

    Fisherova distribucija je distribucija slučajne varijable

    Fisherova se distribucija koristi pri testiranju hipoteza o primjerenosti modela u regresijskom analizi, jednakosti varijanci i drugim problemima primijenjene statistike.

    18Linearna regresija je statistički alat koji se koristi za predviđanje budućih cijena na temelju prošlih podataka, a obično se koristi za određivanje kada su cijene pregrijane. Metoda najmanjih kvadrata koristi se za konstruiranje "najprikladnije" ravne linije kroz niz točaka vrijednosti cijene. Cijene koje se koriste kao input mogu biti bilo koje od sljedećeg: otvaranje, zatvaranje, visoka, niska,

    17. Dvodimenzionalna slučajna varijabla je uređeni skup dviju slučajnih varijabli ili .

    Primjer: Bačene su dvije kocke. – broj bodova bačenih na prvoj i drugoj kockici

    Univerzalni način određivanja zakona distribucije dvodimenzionalne slučajne varijable je funkcija distribucije.

    15.m.o Diskretne slučajne varijable

    Svojstva:

    1) M(C) = C, C- konstantno;

    2) M(CX) = C.M.(x);

    3) M(X 1 + X 2) = M(X 1) + M(X 2), Gdje X 1, X 2- nezavisne slučajne varijable;

    4) M(X 1 X 2) = M(X 1)M(X 2).

    Matematičko očekivanje zbroja slučajnih varijabli jednako je zbroju njihovih matematičkih očekivanja, tj.

    Matematičko očekivanje razlike između slučajnih varijabli jednako je razlici njihovih matematičkih očekivanja, tj.

    Matematičko očekivanje umnoška slučajnih varijabli jednako je umnošku njihovih matematičkih očekivanja, tj.

    Ako se sve vrijednosti slučajne varijable povećaju (smanje) za isti broj C, tada će se njezino matematičko očekivanje povećati (smanjiti) za isti broj

    14. Eksponencijalni(eksponencijalni)zakon distribucije x ima eksponencijalni zakon raspodjele s parametrom λ >0 ako njegova gustoća vjerojatnosti ima oblik:

    Očekivana vrijednost: .

    Raspršenost: .

    Eksponencijalni zakon raspodjele igra veliku ulogu u teoriji čekanja i teoriji pouzdanosti.

    13. Normalni zakon distribucije karakterizira učestalost kvara a (t) ili gustoća vjerojatnosti kvara f (t) u obliku:

    , (5.36)

    gdje je σ standardna devijacija SV x;

    m x– matematičko očekivanje SV x. Taj se parametar često naziva centar disperzije ili najvjerojatnija vrijednost SV x.

    x– slučajna varijabla, koja se može uzeti kao vrijeme, vrijednost struje, vrijednost električnog napona i drugi argumenti.

    Normalni zakon je zakon s dva parametra, za čije pisanje morate znati m x i σ.

    Normalna razdioba (Gaussova razdioba) koristi se za procjenu pouzdanosti proizvoda na koje utječe niz slučajnih čimbenika, od kojih svaki ima blagi učinak na rezultirajući učinak

    12. Uniformni zakon raspodjele. Kontinuirana slučajna varijabla x ima jedinstveni zakon raspodjele na segmentu [ a, b], ako je njegova gustoća vjerojatnosti konstantna na ovom segmentu i jednaka nuli izvan njega, tj.

    Oznaka: .

    Očekivana vrijednost: .

    Raspršenost: .

    Slučajna vrijednost x, raspodijeljen prema jedinstvenom zakonu na segmentu naziva se slučajni broj od 0 do 1. Služi kao polazni materijal za dobivanje slučajnih varijabli s bilo kojim zakonom raspodjele. Uniformni zakon raspodjele koristi se u analizi pogrešaka zaokruživanja pri izvođenju numeričkih izračuna, u nizu problema čekanja, u statističkom modeliranju opažanja podložnih danoj raspodjeli.

    11. Definicija. Gustoća distribucije vjerojatnosti kontinuirane slučajne varijable X naziva se funkcija f(x)– prva derivacija funkcije razdiobe F(x).

    Gustoća distribucije također se naziva diferencijalna funkcija. Za opis diskretne slučajne varijable, gustoća distribucije je neprihvatljiva.

    Značenje gustoće distribucije je da pokazuje koliko se često slučajna varijabla X pojavljuje u određenom susjedstvu točke x kod ponavljanja eksperimenata.

    Nakon uvođenja funkcija distribucije i gustoće distribucije, može se dati sljedeća definicija kontinuirane slučajne varijable.

    10. Gustoća vjerojatnosti, gustoća distribucije vjerojatnosti slučajne varijable x, je funkcija p(x) takva da

    i za bilo koje a< b вероятность события a < x < b равна
    .

    Ako je p(x) kontinuiran, tada je za dovoljno mali ∆x vjerojatnost nejednakosti x< X < x+∆x приближенно равна p(x) ∆x (с точностью до малых более высокого порядка). Функция распределения F(x) случайной величины x, связана с плотностью распределения соотношениями

    a ako je F(x) diferencijabilan, onda