Biograafiad Omadused Analüüs

Arvväärtuste statistiline analüüs (mitteparameetriline statistika). Tõenäosuse jaotuse normaalseadus

tõenäosusteoorias ja matemaatilises statistikas vaadeldakse erinevaid arvuliste juhuslike suuruste jaotuste parameetrilisi perekondi. Nimelt uuritakse normaaljaotuste perekondi, logaritmiliselt normaaljaotust, eksponentsiaaljaotust, gamma jaotust, Weibull-Gnedenko jaotust jne. Kõik need sõltuvad ühest, kahest või kolmest parameetrist. Seetõttu piisab jaotuse täielikuks kirjeldamiseks ühe, kahe või kolme arvu teadmisest või hinnangust. Väga mugav. Seetõttu on laialdaselt arenenud matemaatilise statistika parameetriline teooria, milles eeldatakse, et vaatlustulemuste jaotused kuuluvad ühte või teise parameetriperekonda.

Paraku eksisteerivad parameetrilised perekonnad vaid tõenäosusteooria ja matemaatilise statistika õpikute autorite meelest. Päris elus neid ei eksisteeri. Seetõttu kasutatakse ökonomeetrias peamiselt mitteparameetrilisi meetodeid, mille puhul vaatlustulemuste jaotused võivad olla suvalise kujuga.

Esiteks käsitleme normaaljaotuse näitel põhjalikumalt parameetriliste perekondade praktilise kasutamise võimatust konkreetsete majandusandmete jaotuste kirjeldamisel. Seejärel analüüsime parameetrilisi meetodeid kõrvalekallete vaatluste tagasilükkamiseks ja demonstreerime mitmete parameetrilise statistika meetodite praktilise kasutamise võimatust, nendest tulenevate järelduste ekslikkust. Seejärel analüüsime arvuliste juhuslike suuruste põhiomaduste - matemaatilise ootuse, mediaani, dispersiooni, standardhälbe - usaldushinnangu mitteparameetrilisi meetodeid, variatsioonikoefitsient. Loeng lõpeb kahe sõltumatu või seotud proovi homogeensuse kontrollimise meetoditega.

Kas vaatluste jaotus on sageli normaalne?

Ökonomeetrilistes ja majandus-matemaatilistes mudelites, mida kasutatakse eelkõige turundus- ja juhtimisprotsesside, ettevõtte ja piirkondliku juhtimise, tehnoloogiliste protsesside täpsuse ja stabiilsuse uurimisel ja optimeerimisel, töökindluse, ohutuse, sealhulgas keskkonnaohutuse, tehniliste süsteemide toimimise probleemide lahendamisel. seadmed ja objektid, organisatsiooniskeemide väljatöötamisel kasutatakse sageli tõenäosusteooria ja matemaatilise statistika mõisteid ja tulemusi. Sel juhul kasutatakse sageli üht või teist parameetrilist tõenäosusjaotuste perekonda. Populaarseim normaaljaotus. Kasutatakse ka logaritmiliselt normaaljaotus, eksponentsiaalne jaotus, gamma jaotus, Weibull-Gnedenko jaotus jne.

Ilmselgelt on alati vaja kontrollida mudelite vastavust tegelikkusele. On kaks küsimust. Kas tegelikud jaotused erinevad mudelis kasutatavatest? Mil määral see erinevus järeldusi mõjutab?

Allpool on normaaljaotuse näitel ja sellel põhinevate teravalt erinevate vaatluste (kõrvalväärtuste) tagasilükkamise meetoditel näidatud, et reaalsed jaotused erinevad peaaegu alati klassikalistes parameetrilistes perekondades sisalduvatest ning olemasolevad kõrvalekalded antud perekondadest. teha vaadeldaval juhul ebaõigeid järeldusi tagasilükkamise kohta nende perekondade kasutamise põhjal.

Kas on põhjust eeldada a priori mõõtmistulemuste normaalsust?

Mõnikord väidetakse, et juhul, kui mõõtmisviga (või muu juhuslik väärtus) määratakse paljude väikeste tegurite koosmõjul, siis tõenäosusteooria keskpiiri teoreemi (CLT) alusel on see väärtus (jaotuse järgi) normaalse juhusliku muutujaga hästi lähendatud. See väide on tõene, kui väikesed tegurid toimivad aditiivselt ja üksteisest sõltumatult. Kui need toimivad multiplikatiivselt, siis on sama CLT tõttu vaja lähendada logaritmilise normaaljaotuse järgi. Rakendusülesannetes ei ole tavaliselt võimalik põhjendada pisitegurite toime aditiivsust, mitte mitmekordistamist. Kui sõltuvus on üldist laadi, ei ole taandatud aditiivsele või multiplikatiivsele kujule ning pole alust aktsepteerida mudeleid, mis annavad eksponentsiaalse, Weibull-Gnedenko, gamma või muud jaotused, siis ei teata jaotuse kohta praktiliselt midagi. lõplik juhuslik muutuja, välja arvatud sisematemaatilised omadused, nagu korrapärasus .

Konkreetsete andmete töötlemisel arvatakse mõnikord, et mõõtmisvead on normaaljaotus. Normaalsuse eeldusel on klassikalised regressiooni-, dispersioonimudelid, faktoranalüüsid, metroloogilised mudelid, mida endiselt leidub nii kodumaises normatiiv- ja tehnilises dokumentatsioonis kui ka rahvusvahelistes standardites. Samal eeldusel põhinevad majandusstruktuuride, tehniliste seadmete ja objektide toimimise ohutuse tagamise süsteemide projekteerimisel kasutatavad teatud karakteristikute maksimaalsete saavutatavate tasemete arvutamise mudelid. Teoreetilist alust sellisel eeldusel aga pole. Eksperimentaalselt on vaja uurida vigade jaotust.

Mida näitavad katsetulemused? Monograafias toodud kokkuvõte lubab väita, et enamasti erineb mõõtmisvigade jaotus tavapärasest. Nii uuriti Masina- ja Elektrotehnikainstituudis (Varna, Bulgaaria) analoogelektriliste mõõteriistade skaalade kalibreerimisvigade jaotust. Uuriti Tšehhoslovakkias, NSV Liidus ja Bulgaarias toodetud seadmeid. Vigade jaotamise seadus osutus samaks. Sellel on tihedus

Analüüsisime erinevate autorite uuritud 219 vigade tegeliku jaotuse parameetrite andmeid nii elektriliste kui ka mitteelektriliste suuruste mõõtmisel väga erinevate (elektri)seadmetega. Selle uuringu tulemusena selgus, et 111 distributsiooni, s.o. ligikaudu 50% kuuluvad tihedusega jaotuste klassi

kus on kraadi parameeter; - nihke parameeter; - skaala parameeter; - argumendi gammafunktsioon ;

Tartu Riikliku Ülikooli Rakendusmatemaatika laboris analüüsiti 2500 proovi reaalstatistika arhiivist. 92% juhtudest tuli normaalsuse hüpotees tagasi lükata.

Ülaltoodud katseandmete kirjeldused näitavad, et mõõtmisvead on enamikul juhtudel jaotused, mis erinevad tavalistest. See tähendab eelkõige seda, et enamiku Studenti t-testi rakendustest on klassikaline regressioonanalüüs ja teised normaalteoorial põhinevad statistilised meetodid, rangelt võttes, ei ole õigustatud, kuna nende aluseks olevate vastavate juhuslike suuruste jaotuste normaalsuse aksioom on vale.

Ilmselgelt on statistiliste andmete analüüsimise senise praktika õigustamiseks või mõistlikuks muutmiseks vaja uurida andmeanalüüsi protseduuride omadusi "illegaalsetes" rakendustes. Tagasilükkamisprotseduuride uurimine on näidanud, et need on normaalsusest kõrvalekallete suhtes äärmiselt ebastabiilsed ja seetõttu ei ole soovitatav neid kasutada reaalsete andmete töötlemiseks (vt allpool); seetõttu ei saa väita, et meelevaldselt tehtud protseduur on normaalsusest kõrvalekaldumise suhtes stabiilne.

Mõnikord tehakse ettepanek kontrollida normaalsust enne, kui rakendate näiteks Studenti testi kahe proovi homogeensuse kohta. Kuigi selleks on palju kriteeriume, on normaalsuse testimine keerulisem ja aeganõudvam statistiline protseduur kui homogeensuse testimine (nii Student-tüüpi statistika kui ka mitteparameetriliste testidega). Normaalsuse piisavalt usaldusväärseks kindlakstegemiseks on vaja üsna palju vaatlusi. Seega, tagamaks, et vaatlustulemuste jaotusfunktsioon erineb mõnest normaalsest mitte rohkem kui 0,01 võrra (mis tahes argumendi väärtuse korral), on vaja umbes 2500 vaatlust. Enamikus majandus-, tehnika-, biomeditsiini- ja muudes rakendusuuringutes on vaatlusi oluliselt vähem. See kehtib eriti majandusstruktuuride ja tehniliste objektide toimimise ohutuse tagamisega seotud probleemide uurimisel kasutatavate andmete kohta.

Mõnikord püütakse kasutada DCT-d, et lähendada vea jaotust normaalsele, kaasates mõõteseadme tehnoloogilises skeemis spetsiaalsed liitjad. Hindame selle meetme kasulikkust. Olgu jaotusfunktsiooniga sõltumatud identselt jaotatud juhuslikud muutujad selline, mis arvestab

Summeerija pakutav normaalsuse läheduse indikaator on

Parempoolne ebavõrdsus viimases seoses tuleneb raamatus saadud Berry-Esseeni võrratuse konstandi hinnangutest ja vasakpoolne ebavõrdsus monograafia näitest. Sest tavaline seadus, ühtse , kahepunktilise jaoks (see on alumine piir ). Seetõttu on selleks, et "ebaõnnestunud" jaotuste korral oleks kaugus (Kolmogorovi meetrikas) normaaljaotuseni mitte suurem kui 0,01, on vaja vähemalt termineid, mille puhul on tõenäosus sattuda diskreetsesse kümnendarvude hulka teatud arvuga kümnendarvudega. komakohad on 0.

Eeltoodust järeldub, et mõõtmistulemused ja üldiselt ka statistilised andmed omavad omadusi, mis viivad selleni, et neid tuleks modelleerida juhuslike suurustega, mille jaotus on tavapärastest enam-vähem erinev. Enamasti erinevad jaotused normaaljaotusest oluliselt, teistel võib normaaljaotust ilmselt pidada mingiks lähenduseks, kuid täielikku kokkusattumust pole kunagi. See tähendab nii vajadust uurida klassikaliste statistiliste protseduuride omadusi mitteklassikalistes tõenäosuslikud mudelid(sarnaselt allpool Studenti t-testi puhul tehtule) ning stabiilsete (arvestades normaalsusest kõrvalekallete olemasolu) ja mitteparameetriliste, sh jaotusvabade protseduuride väljatöötamise vajadusest nende laialdast juurutamist statistilise praktikasse. andmetöötlus.

Siin teiste parameetriliste perekondade puhul välja jäetud kaalutlused viivad sarnastele järeldustele. Tulemuse saab sõnastada järgmiselt. Tegelikud andmejaotused ei kuulu peaaegu kunagi ühtegi konkreetsesse parameetri perekonda. Tegelikud jaotused erinevad alati parameetrilistes perekondades sisalduvatest. Erinevused võivad olla suured või väikesed, kuid need on alati olemas. Proovime mõista, kui olulised need erinevused ökonomeetrilise analüüsi jaoks on.

Normaaljaotus (Gaussi jaotus) on tõenäosusteoorias alati mänginud keskset rolli, kuna see tekib väga sageli paljude tegurite mõju tulemusena, millest ühegi panus on tühine. Keskpiiri teoreem (CLT) leiab rakendust praktiliselt kõigis rakendusteadustes, muutes statistikaaparaadi universaalseks. Siiski on väga sageli juhtumeid, kui selle rakendamine on võimatu, ja teadlased püüavad igal võimalikul viisil korraldada tulemuste sobitamist Gaussi järgi. See on umbes alternatiivne lähenemisviis, kui see mõjutab paljude tegurite jaotumist, ma ütlen teile kohe.

CPT lühiajalugu. Kui Newton oli veel elus, tõestas Abraham de Moivre teoreemi sündmuse tsentreeritud ja normaliseeritud arvu vaatluste konvergentsi kohta sõltumatute katsete seerias normaaljaotusega. Kogu 19. sajandi ja 20. sajandi alguses oli see teoreem üldistuste teaduslikuks mudeliks. Laplace tõestas ühtlase jaotuse juhtumit, Poisson tõestas erineva tõenäosusega juhtumi kohta lokaalset teoreemi. Poincaré, Legendre ja Gauss töötasid välja rikkaliku vaatlusvigade teooria ja vähimruutude meetodi, mis põhineb vigade konvergentsil normaaljaotusega. Tšebõšev tõestas veelgi tugevamat teoreemi juhuslike suuruste summa kohta, töötades välja momentide meetodi. Ljapunov tõestas 1900. aastal Tšebõševile ja Markovile tuginedes CLT-d selle praegusel kujul, kuid ainult kolmandat järku momentide olemasoluga. Ja alles 1934. aastal tegi Feller sellele lõpu, näidates, et teist järku momentide olemasolu on ühtaegu vajalik ja piisav tingimus.

CLT saab sõnastada järgmiselt: kui juhuslikud muutujad on sõltumatud, võrdselt jaotunud ja nende lõplik dispersioon on erinev nullist, siis nende muutujate summad (keskel ja normaliseeritud) lähenevad normaalseadusele. Just sellisel kujul õpetatakse seda teoreemi ülikoolides ja seda kasutavad nii sageli vaatlejad ja teadlased, kes ei ole matemaatikas professionaalid. Mis tal viga on? Tõepoolest, teoreemil on suurepärased rakendused valdkondades, millega Gauss, Poincare, Chebyshev ja teised 19. sajandi geeniused töötasid, nimelt: vaatlusvigade teooria, statistiline füüsika, vähimruutude, demograafilised uuringud ja võib-olla veel midagi. Kuid teadlased, kellel puudub originaalsus avastada, üldistada ja tahavad seda teoreemi kõigele rakendada või lohistavad normaaljaotust lihtsalt kõrva taha, kus seda lihtsalt olla ei saa. Kui soovite näiteid, siis mul on need olemas.

Intelligentsuskoefitsient IQ. Esialgu tähendab see, et inimeste intelligentsus on normaalselt jaotunud. Nad viivad läbi testi, mis on eelnevalt koostatud viisil, mis ei arvesta silmapaistvaid võimeid, vaid võetakse eraldi arvesse samade murdosateguritega: loogiline mõtlemine, vaimne disain, arvutusvõimed, abstraktne mõtlemine ja midagi muud. Arvesse ei võeta mingil moel oskust lahendada enamusele kättesaamatuid probleeme ehk testi sooritamist ülikiire ajaga ning testi varasem läbimine tõstab tulemust (aga mitte intelligentsust) tulevikus. Ja siis usuvad vilistid, et "keegi ei saa olla kaks korda targem kui nemad", "võtkem tarkadelt ära ja jagame".

Teine näide: muutused finantsnäitajates. Aktsiate hinnamuutuste, valuuta noteeringute, kaubaoptsioonide uurimine eeldab matemaatilise statistika aparaadi kasutamist ja eriti siin on oluline mitte eksida jaotuse tüübiga. Näide: 1997. aastal maksti Nobeli majandusauhind Black-Scholesi mudeli ettepaneku eest, mis põhines aktsianäitajate kasvu normaalse jaotuse eeldusel (nn valge müra). Samal ajal väitsid autorid selgesõnaliselt, et seda mudelit tuleb täpsustada, kuid enamus edasistest uurijatest otsustas lihtsalt Poissoni jaotuse normaaljaotusele lisada. Siin ilmnevad ilmselgelt ebatäpsused pikkade aegridade uurimisel, kuna Poissoni jaotus rahuldab CLT-d liiga hästi ja isegi 20 liikmega on see normaaljaotusest eristamatu. Vaadake allolevat pilti (ja see on ühest väga tõsisest majandusajakirjast), see näitab, et vaatamata küllaltki suurele hulgale tähelepanekutele ja ilmsetele moonutustele eeldatakse, et jaotus on normaalne.


On üsna ilmne, et palkade jaotus linna elanike, ketta failide suuruse, linnade ja riikide rahvaarvu vahel ei ole normaalne.

Nende näidete jaotustel on ühine nn "raske saba", st keskmisest kaugel olevad väärtused, ja märgatav asümmeetria, tavaliselt õige. Mõelgem, millised võiksid sellised jaotused peale tavaliste veel olla. Alustame varem mainitud Poissoniga: sellel on saba, kuid me tahame, et seadust korrataks rühmade jaoks, millest igaühes seda järgitakse (arvutatakse faili suurus ettevõtte jaoks, palk mitme linna kohta) või skaleeritakse (Suvaliselt suurendada või vähendada mudeli Black-Scholes intervalli), nagu vaatlused näitavad, sabad ja asümmeetriad ei kao, kuid Poissoni jaotus peaks CLT järgi muutuma normaalseks. Samadel põhjustel ei tööta Erlangi distributsioonid, beetaversioon, logonormal ja kõik muud dispersiooniga distributsioonid. Jääb vaid Pareto jaotus ära lõigata, kuid see ei sobi moe kokkulangemise tõttu miinimumväärtusega, mida näidisandmete analüüsimisel peaaegu kunagi ei esine.

Vajalike omadustega jaotused on olemas ja neid nimetatakse stabiilseteks jaotusteks. Nende ajalugu on samuti väga huvitav ja põhiteoreem tõestati aasta pärast Felleri tööd, 1935. aastal, prantsuse matemaatiku Paul Levy ja nõukogude matemaatiku A.Ya ühiste jõupingutustega. Khinchin. CLT üldistati, sellest eemaldati dispersiooni olemasolu tingimus. Erinevalt normaalsest ei väljendata stabiilsete juhuslike muutujate tihedust ega jaotusfunktsiooni (harva erandiga, millest on juttu allpool), nende kohta teatakse vaid karakteristlikku funktsiooni (jaotustiheduse Fourier' pöördteisendus, kuid olemust mõista, seda ei saa teada).
Niisiis, teoreem: kui juhuslikud suurused on sõltumatud, jaotatud võrdselt, siis nende muutujate summad koonduvad stabiilseks seaduseks.

Nüüd määratlus. Juhuslik väärtus X on stabiilne siis ja ainult siis, kui selle iseloomuliku funktsiooni logaritmi saab esitada järgmiselt:

kus .

Tegelikult pole siin midagi väga keerulist, peate lihtsalt selgitama nelja parameetri tähendust. Parameetrid sigma ja mu on tavaline skaala ja nihe, nagu normaaljaotuses, on mu ootusega võrdne, kui see on nii, ja see on siis, kui alfa on suurem kui üks. Beeta parameeter on asümmeetria; kui see on võrdne nulliga, on jaotus sümmeetriline. Kuid alfa on iseloomulik parameeter, mis näitab, millises järjekorras eksisteerivad suuruse hetked, mida lähemal on see kahele, seda rohkem näeb jaotus välja nagu normaalne, kui see on võrdne kahega, muutub jaotus normaalseks ja ainult sel juhul on sellel suurte järkude momendid, ka normaaljaotuse korral kalduvus degenereerub. Juhul, kui alfa on võrdne ühega ja beeta nulliga, saadakse Cauchy jaotus ning juhul, kui alfa on võrdne poolega ja beeta ühega, Levy jaotus, muudel juhtudel puudub kvadratuurides esitus. selliste suuruste jaotustihedus.
20. sajandil töötati välja rikkalik stabiilsete suuruste ja protsesside teooria (nimetatakse Levy protsessideks), näidati nende seost murdosa integraalidega, võeti kasutusele erinevad parameetrite määramise ja modelleerimise meetodid, parameetrite hindamine mitmel viisil, järjepidevus ja stabiilsus. hinnangutest näidati. Vaadake pilti, see näitab Levy protsessi simuleeritud trajektoori 15 korda suurendatud fragmendiga.


Just selliste protsesside ja nende rakendamisega rahanduses tegeledes jõudis Benoit Mandelbrot fraktalideni. Samas ei olnud igal pool nii hea. 20. sajandi teine ​​pool möödus üldise rakendus- ja küberneetika suundumuse all, mis tähendas puhta matemaatika kriisi, kõik tahtsid toota, aga mõelda ei tahtnud, humanitaarteadused hõivasid oma ajakirjandusega matemaatika sfäärid. Näide: Ameerika Mostelleri raamat "Viiskümmend meelelahutuslikku tõenäosuslikku probleemi lahendustega", probleem number 11:


Autori lahendus sellele probleemile on lihtsalt terve mõistuse lüüasaamine:

Sama olukord on 25. ülesandega, kus antakse KOLM vastuolulist vastust.

Aga tagasi stabiilsete distributsioonide juurde. Ülejäänud artiklis püüan näidata, et nendega töötades ei tohiks tekkida täiendavaid raskusi. Nimelt on olemas arvulised ja statistilised meetodid, mis võimaldavad hinnata parameetreid, arvutada jaotusfunktsiooni ja neid simuleerida ehk töötada samamoodi nagu mis tahes muu jaotusega.

Stabiilsete juhuslike suuruste modelleerimine. Kuna võrdluses on kõik teada, tuletan esmalt meelde arvutuste seisukohalt mugavaimat normaalväärtuse genereerimise meetodit (Box-Mulleri meetod): kui on põhilised juhuslikud muutujad (ühtlaselt jaotunud )