Biografije Karakteristike Analiza

Statistička analiza numeričkih vrijednosti (neparametrijska statistika). Normalni zakon distribucije vjerovatnoće

u teoriji vjerovatnoće i matematičkoj statistici razmatraju se različite parametarske porodice distribucija numeričkih slučajnih varijabli. Naime, proučavaju se porodice normalnih distribucija, logaritamski normalnih, eksponencijalnih, gama raspodjela, Weibull-Gnedenko raspodjela itd. Sve one zavise od jednog, dva ili tri parametra. Stoga je za potpuni opis distribucije dovoljno znati ili procijeniti jedan, dva ili tri broja. Vrlo udobno. Stoga je parametarska teorija matematičke statistike široko razvijena, u kojoj se pretpostavlja da distribucije rezultata opservacija pripadaju jednoj ili drugoj parametarskoj porodici.

Nažalost, parametarske porodice postoje samo u glavama autora udžbenika iz teorije vjerovatnoće i matematičke statistike. Oni ne postoje u stvarnom životu. Stoga ekonometrija uglavnom koristi neparametarske metode, u kojima distribucije rezultata posmatranja mogu imati proizvoljan oblik.

Prvo ćemo, koristeći primjer normalne distribucije, detaljnije raspravljati o nemogućnosti praktične upotrebe parametarskih porodica za opisivanje distribucija specifičnih ekonomskih podataka. Zatim ćemo analizirati parametarske metode za odbacivanje izvanrednih opažanja i pokazati nemogućnost praktične upotrebe brojnih metoda parametarske statistike, pogrešnost zaključaka do kojih dovode. Zatim ćemo analizirati neparametarske metode procjene povjerenja glavnih karakteristika numeričkih slučajnih varijabli - matematičko očekivanje, medijana, varijansa, standardna devijacija, koeficijent varijacije. Predavanje će se zaključiti metodama za provjeru homogenosti dva uzorka, neovisna ili srodna.

Da li je distribucija zapažanja često normalna?

U ekonometrijskim i ekonomsko-matematičkim modelima koji se koriste, posebno, u proučavanju i optimizaciji procesa marketinga i upravljanja, upravljanja preduzećem i regionom, tačnosti i stabilnosti tehnoloških procesa, u problemima pouzdanosti, bezbednosti, uključujući bezbednost životne sredine, funkcionisanju tehničkih uređaja i objekata, pri razvoju organizacionih dijagrama često se primenjuju koncepti i rezultati teorije verovatnoće i matematičke statistike. U ovom slučaju se često koriste određene parametarske porodice distribucija vjerovatnoće. Najpopularniji normalna distribucija. Također se koristi logaritamski normalna distribucija, eksponencijalna raspodjela, gama distribucija, Weibull-Gnedenkova raspodjela itd.

Očigledno, uvijek je potrebno provjeriti usklađenost modela sa stvarnošću. Postoje dva pitanja. Da li se stvarne distribucije razlikuju od onih korištenih u modelu? U kojoj mjeri ova razlika utiče na zaključke?

U nastavku, na primjeru normalne distribucije i metodama za odbacivanje oštro različitih zapažanja (outliera) zasnovanih na njoj, pokazano je da se realne distribucije gotovo uvijek razlikuju od onih uključenih u klasične parametarske porodice, a postojeća odstupanja od datih familija doneti pogrešne zaključke, u predmetu koji se razmatra, o odbijanju na osnovu korišćenja ovih porodica.

Postoji li razlog da se a priori pretpostavi normalnost rezultata mjerenja?

Ponekad se tvrdi da u slučaju kada je greška mjerenja (ili dr slučajna vrijednost) je određena kao rezultat kombinovanog djelovanja mnogih malih faktora, tada je, na osnovu Centralne granične teoreme (CLT) teorije vjerovatnoće, ova vrijednost dobro aproksimirana (po distribuciji) normalnom slučajnom varijablom. Ova tvrdnja je tačna ako mali faktori djeluju aditivno i nezavisno jedan od drugog. Ako djeluju multiplikativno, tada je zbog istog CLT-a potrebno aproksimirati log-normalnom distribucijom. U primijenjenim problemima obično nije moguće utemeljiti aditivnost, a ne multiplikativnost djelovanja malih faktora. Ako je ovisnost opće prirode, nije svedena na aditivni ili multiplikativni oblik i nema osnova za prihvatanje modela koji daju eksponencijalnu, Weibull-Gnedenkovu, gama ili druge distribucije, onda se o raspodjeli distribucije praktično ništa ne zna. konačna slučajna varijabla, osim intra-matematičkih svojstava kao što je regularnost.

Prilikom obrade specifičnih podataka, ponekad se vjeruje da postoje greške mjerenja normalna distribucija. Na pretpostavci normalnosti, klasični modeli regresije, disperzije, faktorske analize, metrološki modeli, koji se i dalje nalaze kako u domaćoj normativno-tehničkoj dokumentaciji tako iu međunarodnim standardima. Na istoj pretpostavci zasnivaju se modeli za izračunavanje maksimalno dostižnih nivoa pojedinih karakteristika koji se koriste pri projektovanju sistema za osiguranje bezbednosti funkcionisanja privrednih objekata, tehničkih uređaja i objekata. Međutim, ne postoji teoretska osnova za takvu pretpostavku. Potrebno je eksperimentalno proučiti distribuciju grešaka.

Šta pokazuju eksperimentalni rezultati? Sažetak dat u monografiji omogućava nam da konstatujemo da se u većini slučajeva distribucija mjernih grešaka razlikuje od normalne. Tako je na Mašinskom i elektrotehničkom institutu (Varna, Bugarska) proučavana distribucija kalibracionih grešaka za skale analognih električnih mjernih instrumenata. Proučavani su uređaji proizvedeni u Čehoslovačkoj, SSSR-u i Bugarskoj. Ispostavilo se da je zakon raspodjele grešaka isti. Ima gustinu

Analizirali smo podatke o parametrima 219 stvarnih distribucija grešaka, koje su proučavali različiti autori, pri mjerenju kako električnih tako i neelektričnih veličina širokim spektrom (električnih) uređaja. Kao rezultat ove studije pokazalo se da 111 distribucija, tj. otprilike 50% pripada klasi raspodjela sa gustinom

gdje je parametar stepena; - parametar pomaka; - parametar skale; - gama funkcija argumenta;

Laboratorija za primijenjenu matematiku Državnog univerziteta u Tartuu analizirala je 2.500 uzoraka iz arhive stvarnih statističkih podataka. U 92% hipoteza normalnosti je morala biti odbačena.

Gornji opisi eksperimentalnih podataka pokazuju da greške mjerenja u većini slučajeva imaju distribucije koje se razlikuju od normalnih. To posebno znači da je većina primjena Studentovog t-testa klasična regresiona analiza i druge statističke metode zasnovane na normalnoj teoriji, striktno govoreći, nije opravdano, jer je aksiom normalnosti distribucija odgovarajućih slučajnih varijabli koji su u njihovoj osnovi netačan.

Očigledno, da bi se opravdala ili razumno promijenila postojeća praksa analize statističkih podataka, potrebno je proučiti svojstva postupaka analize podataka u „nelegalnim“ aplikacijama. Proučavanje postupaka odbijanja pokazalo je da su oni izuzetno nestabilni na odstupanja od normalnosti, te ih stoga nije preporučljivo koristiti za obradu stvarnih podataka (vidi dolje); dakle, ne može se tvrditi da je proizvoljno uzeta procedura stabilna protiv odstupanja od normalnosti.

Ponekad se predlaže da se proveri normalnost pre primene, na primer, Studentovog testa za homogenost dva uzorka. Iako postoji mnogo kriterijuma za ovo, testiranje normalnosti je složenija i dugotrajnija statistička procedura od testiranja homogenosti (kako sa statistikom tipa Student, tako i sa neparametarskim testovima). Potreban je prilično veliki broj zapažanja da bi se normalno utvrdilo dovoljno pouzdano. Dakle, da bi se garantovalo da se funkcija distribucije rezultata posmatranja razlikuje od neke normalne za ne više od 0,01 (za bilo koju vrednost argumenta), potrebno je oko 2500 posmatranja. U većini ekonomskih, tehničkih, biomedicinskih i drugih primijenjenih istraživanja broj opservacija je znatno manji. Ovo se posebno odnosi na podatke koji se koriste u proučavanju problema vezanih za osiguranje sigurnosti funkcionisanja privrednih objekata i tehničkih objekata.

Ponekad pokušavaju koristiti DCT za aproksimaciju distribucije greške normalnoj, uključujući posebne sabirače u tehnološkoj shemi mjernog uređaja. Procijenimo korisnost ove mjere. Neka su nezavisne identično raspoređene slučajne varijable s funkcijom distribucije takve koje smatraju

Indikator blizine normalnosti koju obezbeđuje sabirač je

Desna nejednakost u posljednjoj relaciji proizlazi iz procjena konstante u Berry-Esseen nejednakosti dobijene u knjizi, a lijeva iz primjera u monografiji. Za normalan zakon, za uniformu , za dvije točke (ovo je donja granica za ). Stoga, da bi se osigurala udaljenost (u Kolmogorovljevoj metrici) do normalne distribucije ne veća od 0,01 za "neuspješne" distribucije, potrebni su barem članovi, gdje je vjerovatnoća pada u diskretni skup decimalnih brojeva sa datim brojem decimalna mjesta je jednaka 0.

Iz navedenog proizilazi da rezultati mjerenja i općenito statistički podaci imaju svojstva koja dovode do toga da ih treba modelirati slučajnim varijablama sa distribucijama koje se manje-više razlikuju od normalnih. U većini slučajeva distribucije se značajno razlikuju od normalnih distribucija, u drugim se normalne distribucije naizgled mogu smatrati nekom vrstom aproksimacije, ali nikada ne postoji potpuna podudarnost. Ovo implicira i potrebu da se proučavaju svojstva klasičnih statističkih procedura u neklasičnim probabilistički modeli(slično onome što je urađeno u nastavku za Studentov t-test), te potrebu za razvojem stabilnih (uzimajući u obzir prisustvo odstupanja od normalnosti) i neparametarskih, uključujući procedure bez distribucije, njihovo široko uvođenje u praksu statističke obrada podataka.

Razmatranja koja su ovdje izostavljena za druge parametarske porodice dovode do sličnih zaključaka. Rezultat se može formulirati na sljedeći način. Stvarne distribucije podataka gotovo nikada ne pripadaju nekoj određenoj parametarskoj porodici. Realne distribucije se uvijek razlikuju od onih uključenih u parametarske porodice. Razlike mogu biti velike ili male, ali uvijek postoje. Pokušajmo shvatiti koliko su ove razlike važne za ekonometrijsku analizu.

Normalna distribucija (Gaussova raspodjela) je oduvijek imala centralnu ulogu u teoriji vjerovatnoće, budući da nastaje vrlo često kao rezultat uticaja mnogih faktora, od kojih je doprinos bilo kojeg od njih zanemarljiv. Centralna granična teorema (CLT) nalazi primenu u gotovo svim primenjenim naukama, čineći statistički aparat univerzalnim. Međutim, vrlo su česti slučajevi kada je njegova primjena nemoguća, a istraživači na sve moguće načine pokušavaju organizirati prilagođavanje rezultata Gaussianu. Radi se o alternativnom pristupu u slučaju uticaja na distribuciju mnogih faktora, sad ću vam reći.

Kratka istorija CPT-a. Dok je Newton još bio živ, Abraham de Moivre je dokazao teoremu o konvergenciji centriranog i normaliziranog broja zapažanja događaja u nizu nezavisnih ispitivanja normalnoj distribuciji. Tokom 19. i ranog 20. veka, ova teorema je služila kao naučni model za generalizacije. Laplace je dokazao slučaj uniformne distribucije, Poisson je dokazao lokalnu teoremu za slučaj sa različitim vjerovatnoćama. Poincaré, Legendre i Gauss razvili su bogatu teoriju opservacijskih grešaka i metodu najmanjih kvadrata zasnovanu na konvergenciji grešaka normalnoj raspodjeli. Čebišev je dokazao još jaču teoremu za zbir slučajnih varijabli razvijajući metodu momenata. Ljapunov je 1900. godine, oslanjajući se na Čebiševa i Markova, dokazao CLT u sadašnjem obliku, ali samo uz postojanje momenata trećeg reda. I tek 1934. Feler je tome stao na kraj, pokazujući da je postojanje momenata drugog reda i nužan i dovoljan uslov.

CLT se može formulirati na sljedeći način: ako su slučajne varijable nezavisne, jednako raspoređene i imaju konačnu varijansu različitu od nule, tada sume (centrirane i normalizirane) ovih varijabli konvergiraju normalnom zakonu. U ovom obliku se ova teorema predaje na univerzitetima i često je koriste posmatrači i istraživači koji nisu profesionalni u matematici. Šta nije u redu s njom? Zaista, teorema ima odličnu primjenu u oblastima na kojima su radili Gauss, Poincare, Chebyshev i drugi geniji 19. stoljeća, a to su: teorija opservacijskih grešaka, statistička fizika, najmanji kvadrati, demografske studije, a možda i nešto drugo. Ali naučnici kojima nedostaje originalnosti da otkriju, generalizuju i žele da primjene ovu teoremu na sve, ili samo vuku normalnu distribuciju za uši, gdje to jednostavno ne može biti. Ako želite primjere, imam ih.

IQ kvocijent inteligencije. U početku, to implicira da je inteligencija ljudi normalno raspoređena. Oni provode test koji je unaprijed sastavljen na način koji ne uzima u obzir izvanredne sposobnosti, već se uzima u obzir odvojeno sa istim frakcijskim faktorima: logičko razmišljanje, mentalni dizajn, računske sposobnosti, apstraktno mišljenje i nešto drugo. Sposobnost rješavanja problema izvan domašaja većine ili polaganje testa u ultra brzom vremenu se ni na koji način ne uzima u obzir, a raniji polaganje testa povećava rezultat (ali ne i inteligenciju) u budućnosti. A onda filisterci veruju da "niko ne može biti duplo pametniji od njih", "oduzmimo to mudracima i podelimo".

Drugi primjer: promjene finansijskih pokazatelja. Proučavanje promjena cijena dionica, valutnih kotacija, robnih opcija zahtijeva korištenje aparata matematičke statistike, a posebno je ovdje važno ne pogriješiti sa vrstom distribucije. Primer: 1997. godine isplaćena je Nobelova nagrada za ekonomiju za predlog Black-Scholes modela, zasnovanog na pretpostavci normalne distribucije rasta indikatora akcija (tzv. beli šum). Istovremeno, autori su eksplicitno naveli da ovaj model treba doraditi, ali sve za šta se većina daljih istraživača odlučila bilo je jednostavno dodavanje Poissonove raspodjele normalnoj distribuciji. Ovdje će, očito, doći do nepreciznosti u proučavanju dugih vremenskih serija, pošto Poissonova raspodjela isuviše dobro zadovoljava CLT, pa se čak i sa 20 članova ne razlikuje od normalne distribucije. Pogledajte sliku ispod (a ona je iz vrlo ozbiljnog ekonomskog časopisa), pokazuje da se, uprkos prilično velikom broju zapažanja i očiglednih distorzija, pretpostavlja da je distribucija normalna.


Sasvim je očigledno da distribucija plata među stanovništvom grada, veličina fajlova na disku, stanovništvo gradova i država neće biti normalna.

Distribucijama iz ovih primjera zajedničko je prisustvo takozvanog "teškog repa", odnosno vrijednosti koje su daleko od srednje vrijednosti, i uočljiva asimetrija, obično prava. Razmotrimo šta bi još, osim normalne, takve distribucije mogle biti. Počnimo s Poissonom koji je ranije spomenut: ima rep, ali želimo da se zakon ponovi za skup grupa, u svakoj od kojih se poštuje (izračunajte veličinu fajlova za preduzeće, platu za nekoliko gradova) ili skalirajte (proizvoljno povećati ili smanjiti interval modela Black-Scholes), kao što pokazuju zapažanja, repovi i asimetrije ne nestaju, ali bi Poissonova raspodjela, prema CLT-u, trebala postati normalna. Iz istih razloga, Erlangove distribucije, beta, logonormalne i sve ostale s disperzijom neće raditi. Ostaje samo odsjeći Pareto distribuciju, ali ona se ne uklapa zbog podudarnosti mode s minimalnom vrijednošću, koja se gotovo nikada ne javlja u analizi podataka uzorka.

Distribucije sa potrebnim svojstvima postoje i nazivaju se stabilne distribucije. Njihova istorija je takođe veoma zanimljiva, a glavna teorema je dokazana godinu dana nakon Fellerovog rada, 1935. godine, zajedničkim naporima francuskog matematičara Paula Levyja i sovjetskog matematičara A.Ya. Khinčin. CLT je generalizovan, iz njega je uklonjen uslov za postojanje disperzije. Za razliku od normalnih, ni gustoća ni funkcija distribucije stabilnih slučajnih varijabli se ne izražavaju (s rijetkim izuzetkom, o čemu se govori u nastavku), sve što se o njima zna je karakteristična funkcija (inverzna Fourierova transformacija gustine distribucije, ali shvatiti suštinu, ovo se ne može znati).
Dakle, teorema: ako su slučajne varijable nezavisne, jednako raspoređene, tada sume ovih varijabli konvergiraju prema stabilnom zakonu.

Sada definicija. Slučajna vrijednost Xće biti stabilan ako i samo ako se logaritam njegove karakteristične funkcije može predstaviti kao:

gdje .

U stvari, ovdje nema ništa jako komplikovano, samo trebate objasniti značenje četiri parametra. Parametri sigma i mu su uobičajena skala i pomak, kao u normalnoj distribuciji, mu će biti jednak očekivanju ako jeste, a to je kada je alfa veća od jedan. Beta parametar je asimetrija; ako je jednak nuli, distribucija je simetrična. Ali alfa je karakterističan parametar, koji pokazuje kojim redom postoje momenti neke veličine, što je bliža dva, to više distribucija izgleda kao normalna, ako je jednaka dva, distribucija postaje normalna, a tek u u ovom slučaju ima momente velikih redova, takođe u slučaju normalne distribucije, asimetrija se degeneriše. U slučaju kada je alfa jednaka jedan, a beta nuli, dobija se Cauchyjeva raspodjela, a u slučaju kada je alfa jednaka polovini, a beta jedan, Levyjeva raspodjela, u ostalim slučajevima nema prikaza u kvadraturama za gustina distribucije takvih količina.
U 20. stoljeću razvijena je bogata teorija stabilnih veličina i procesa (nazvanih Levyjevi procesi), prikazana je njihova povezanost sa razlomcima, uvedene su različite metode parametrizacije i modeliranja, parametri su procjenjivani na više načina, a konzistentnost i stabilnost prikazane su procjene. Pogledajte sliku, ona prikazuje simuliranu putanju Levyjevog procesa sa fragmentom uvećanim 15 puta.


Baveći se takvim procesima i njihovom primjenom u financijama Benoit Mandelbrot je došao do fraktala. Međutim, nije svuda bilo tako dobro. Druga polovina 20. veka prošla je pod opštim trendom primenjenih i kibernetičkih nauka, što je značilo krizu čiste matematike, svi su želeli da proizvode, ali nisu hteli da razmišljaju, humanističke nauke su svojim novinarstvom okupirale matematičke sfere. Primjer: knjiga "Pedeset zabavnih probabilističkih problema s rješenjima" američkog Mostellera, problem broj 11:


Autorovo rješenje ovog problema jednostavno je poraz zdravog razuma:

Ista situacija je i sa 25. zadatkom, gdje su data TRI kontradiktorna odgovora.

Ali da se vratimo na stabilne distribucije. U nastavku članka pokušat ću pokazati da ne bi trebalo biti dodatnih poteškoća u radu s njima. Naime, postoje numeričke i statističke metode koje vam omogućavaju da procijenite parametre, izračunate funkciju raspodjele i simulirate ih, odnosno rade na isti način kao i sa bilo kojom drugom distribucijom.

Modeliranje stabilnih slučajnih varijabli. Pošto je sve poznato u poređenju, prvo ću se prisjetiti najpogodnije, sa stanovišta proračuna, metode za generiranje normalne vrijednosti (Boks-Mullerova metoda): ako su osnovne slučajne varijable (jednako raspoređene na )