Metode obrade informacija i predviđanja za studente specijalnosti: "Upravljanje organizacijama". Tabelarne vrijednosti Irwinovog kriterija za ekstremne elemente varijacione serije V.V.

Neka je posmatrani uzorak i neka je varijacioni niz konstruisan iz njega. Hipoteza koju treba testirati je da svi pripadaju istom stanovništva(bez odstupanja). Alternativna hipoteza je da u posmatranom uzorku postoje odstupanja.

Prema Chauvenetovom kriteriju, element zapreminskog uzorka je outlier ako vjerovatnoća njegovog odstupanja od srednje vrijednosti nije veća od .

Sastavljene su sljedeće Chauvenet statistike:

gdje je srednja vrijednost,

Varijanca uzorka

Odredimo kakvu distribuciju ima statistika kada se hipoteza ispuni. Da bismo to učinili, pretpostavljamo da su čak i pri malim slučajnim varijablama i neovisne, tada gustina distribucije slučajna varijabla izgleda kao:

Vrijednosti ove funkcije distribucije mogu se izračunati pomoću matematičkog paketa Maple 14, zamjenjujući dobivene vrijednosti umjesto nepoznatih parametara.

Ako je statistika onda vrijednost () treba biti prepoznata kao izvanredna vrijednost. Kritične vrijednosti su date u tabeli (vidi Dodatak A). Umjesto toga, u formuli (1.1) zamjenjujemo ekstremne vrijednosti kako bismo provjerili ima li odstupanja.

Irwinov kriterijum

Ovaj kriterij se koristi kada je varijansa raspodjele poznata unaprijed.

Uzorak volumena je uzet iz normalne opće populacije i sastavlja se niz varijacija (sortirani uzlaznim redoslijedom). Razmatraju se iste hipoteze i kao u prethodnom kriterijumu.

Kada se najveća (najmanja) vrijednost prepoznaje kao izlaz sa vjerovatnoćom. Kritične vrijednosti su navedene u tabeli.

Grubbsov kriterijum

Neka se uzorak izdvoji i na njemu se izgradi varijacioni niz. Hipoteza koju treba testirati je da svi () pripadaju istoj opštoj populaciji. Prilikom provjere za odbacivanje najveće vrijednosti uzorka, alternativna hipoteza je da oni pripadaju jednom zakonu, ali nekom drugom, značajno pomjerenom udesno. Kada se provjerava izlaz najveće vrijednosti uzorka, statistika Grubbsovog testa ima oblik

gdje se izračunava po formuli (1.2), a - po (1.3)

Prilikom testiranja za outlier najmanje vrijednosti uzorka, alternativna hipoteza pretpostavlja da pripada nekom drugom zakonu, značajno pomjerenom ulijevo. AT ovaj slučaj izračunata statistika poprima oblik

gdje se izračunava po formuli (1.2), a - po (1.3).

Statistike ili se primjenjuju kada je varijansa poznata unaprijed; statistika i -- kada je varijansa procijenjena iz uzorka korištenjem relacije (1.3).

Max ili minimalni element Uzorak se smatra izvanrednim ako vrijednost odgovarajuće statistike premašuje kritičnu vrijednost: ili, gdje je specificirani nivo značajnosti. Kritične vrijednosti i date su u sažetim tabelama (vidi Dodatak A). Statistika dobijena u ovom testu, kada je nulta hipoteza ispunjena, ima istu distribuciju kao statistika u Chauvenet testu.

Za > 25, mogu se koristiti aproksimacije za kritične vrijednosti

gdje je kvantil standarda normalna distribucija.

A se aproksimira kako slijedi

Ako su varijansa () i matematičko očekivanje (µ - srednja vrijednost) poznati u ekstrahiranom uzorku, tada se koristi statistika

Kritične vrijednosti ove statistike su također navedene u tabelama. Ako, onda se odstupanje smatra značajnim i alternativna hipoteza se prihvata.

Zadaci za samostalno učenje discipline.

Vježba 1. U skladu s opcijom, simulirati skup empirijskih podataka dobivenih kao rezultat mjerenja jednodimenzionalne karakteristike. Da biste to učinili, trebate tabelarno prikazati funkciju:

, ,

i dobijete 15 - 20 uzastopnih podataka. Ovdje je, po svoj prilici, karakteristika znaka (oslikava glavni trend znaka), te smetnje (greške) mjerenja, koje su bile rezultat ispoljavanja raznih vrsta nezgoda.

Opcije početnih podataka:

Izvršite detekciju anomalnih nivoa serije podataka dobijenih tabuliranjem funkcije i izvršite njihovo izglađivanje:

a). Irwinova metoda, prema formuli

Izračunate vrijednosti se upoređuju sa tabelarnim vrijednostima Irwinovog kriterija:

Irwinov test stol

U tabeli su prikazane vrijednosti Irwinovog testa za nivo značajnosti (sa greškom od 5%).

b). provjeravanjem razlika u prosječnim nivoima, razbijanjem vremenske serije podataka na približno dva jednaka dijela i izračunavanjem srednje vrijednosti i varijanse za svaki od dijelova. Zatim provjerite jednakost varijansi oba dijela koristeći Fisherov test. Ako se prihvati hipoteza o jednakosti varijansi, nastavite sa testiranjem hipoteze o odsustvu trenda koristeći Studentov t-test. Da izračunam empirijska vrijednost statistike, koristite formule:

gdje je srednja vrijednost standardna devijacija srednje razlike:

Uporedite izračunatu vrijednost statistike sa tabelom.

in). Foster-Stuart metoda.

2. Izvršite mehaničko izravnavanje nivoa serije:

a). jednostavna metoda pokretnog prosjeka;

b). metoda ponderisanog pokretnog prosjeka;

in). Metoda eksponencijalnog izglađivanja.

Zadatak 2. Datasheet ekonomski pokazatelji, dat je vremenski niz mjesečnih obima transporta (vezanih za određeno područje) poljoprivrednih dobara u konvencionalnim jedinicama.

Primjena metode Četverikova za izdvajanje komponenti vremenske serije:

a). poravnajte empirijsku seriju koristeći centrirani pokretni prosek sa periodom izglađivanja;

b). oduzmite dobijenu preliminarnu procjenu trenda od početne empirijske serije: .

in). Izračunajte za svaku godinu (po redu) standardnu devijaciju vrijednosti koristeći formulu

G). pronađite preliminarnu vrijednost prosječnog sezonskog talasa: .

e). dobiti seriju bez sezonskog talasa: .

e). rezultirajuća serija se izglađuje korištenjem jednostavnog pokretnog prosjeka sa intervalom izravnavanja jednakim pet, i dobija se nova procjena trenda.

g). izračunajte odstupanja serije od originalnog empirijskog niza:

h). nastala odstupanja se podvrgavaju obradi u skladu sa st. in). i d). identificirati nove vrijednosti sezonskog vala.

i). izračunati faktor jačine sezonskog talasa prema formulama i dalje (sam koeficijent):

Faktor stresa nije izračunat za prvu i prošlu godinu.

do). Koristeći faktor napetosti, izračunajte konačne vrijednosti sezonska komponenta vremenske serije: .

Zadatak 3. Vremenske serije su date u tabeli:

Napravite preliminarni odabir najbolje krivulje rasta:

a). metoda konačnih razlika (Tintner);

b). metoda karakteristika rasta.

2. Za originalnu seriju, konstruirajte linearni model , odredivši njegove parametre metodom najmanjih kvadrata.

3. Za početnu vremensku seriju, izgradite adaptivni Brown model sa parametrom zaglađivanja i ; izabrati nai najbolji model Brown , gdje je vrijeme vođenja (broj koraka naprijed).

4. Procijeniti adekvatnost modela zasnovanih na istraživanju:

a). bliskost matematičko očekivanje nulta rezidualna komponenta; kritična vrijednost Studentove statistike koju treba prihvatiti (za nivo samopouzdanja 0,70);

b). slučajna odstupanja rezidualne komponente prema kriterijumu pikova (prekretnica); izvršiti proračune na osnovu omjera ;

in). nezavisnost (nedostatak autokorelacije) nivoa većeg broja reziduala, bilo Durbin-Watsonovim testom (koristiti nivoe i kao kritične), ili prvim koeficijentom autokorelacije (uzeti kritični nivo jednak );

G). normalnost zakona distribucije rezidualne komponente na osnovu RS kriterijuma (as kritični nivoi prihvati interval (2.7 - 3.7)).

5. Procijenite tačnost modela koristeći standardnu devijaciju i srednju vrijednost relativna greška aproksimacije.

6. Na osnovu komparativna analiza adekvatnosti i tačnosti modela, odabrati najbolji model, prema kojem će se graditi tačkaste i intervalne prognoze dva koraka unaprijed (). Grafički prikazati rezultate prognoze.

Zadatak 4. Procjena procesora 10 radnih stanica lokalne mreže, izgrađenih na bazi mašina približno istog tipa, ali različitih proizvođača (što podrazumijeva određena odstupanja u parametrima mašina od osnovnog modela). Za testiranje rada procesora korišćena je mešavina tipa ICOMP 2.0, koja se zasniva na dva glavna testa:

1. 125.turb3D - test simulacije turbulencije u kubni volumen(aplikacijski softver);

2.NortonSI32 - inženjerski program AutoCAD tip

i pomoćni test za normalizaciju vremena obrade podataka SPECint_base95. Procesori su procenjeni ponderisanim vremenom izvršenja mešavine, normalizovanim efikasnošću osnovnog procesora, u skladu sa formulom

gdje je vrijeme izvršenja th testa;

težina testa;

efikasnost osnovnog procesora na m testu.

Ako je izraz (1) logaritamski, onda dobijamo:

i nakon preimenovanja varijabli:

vrijeme obrade osnovnog testa SPECint_base95 ;

logaritam vremena obrade prvog testa,

logaritam vremena obrade drugog testa, koeficijent regresije dobijen u procjenama (težina testa);

koeficijent regresije - težina testa za obradu aritmetičkih operacija u cijelim brojevima (osnovni test).

1. Prema podacima mjerenja datim u tabeli, izgraditi regresijsku (empirijsku) funkciju, procijeniti koeficijente regresije i provjeriti adekvatnost modela (izračunati matricu kovarijanse, koeficijente korelacije parova, koeficijent determinacije).

Opcije podataka:

Opcija 1.

Opcija 2.

Opcija 3.

Opcija 4.

Kod relativnog klizanja dijelova tarnih parova dolazi do oštećenja dodirnih površina. Ova vrsta oštećenja površinskih volumena dijela naziva se nositi. Gubitak samo jedne tisućinke mase mašine kao rezultat habanja dovodi do potpunog gubitka performansi. Svake tri godine...
(Mehanika. Osnovi proračuna i projektovanja mašinskih delova)

KRITERIJI STABILNOSTI SISTEMA I METODE ZA ODREĐIVANJE KRITIČNIH OPTEREĆENJA

Postoje tri glavna kriterija za stabilnost konstrukcija: dinamički, statički i energetski, koji određuju i metodologiju za proračun stabilnosti konstrukcija. jedan. Dynamic(prema Ljapunovu) kriterijum zasniva se na proučavanju rješenja jednadžbi dinamičkog kretanja odstupanih od početnog ...
(Strukturna mehanika sistemi ravnih šipki)

KRITERIJI ZA IZBOR KANALA ZA DISTRIBUCIJU OGLAŠAVANJA

Među svim odlukama koje se donose u procesu planiranja, najvažniji je izbor konkretnog medija unutar svakog medija. Po pravilu, medijski planeri teže da biraju one medije koji postižu sljedeće ciljeve: 1) ostvaruju zadatu učestalost predstavljanja reklamne poruke...
(Psihologija masovnih komunikacija)

Korelaciono-regresiona analiza

Korelacija i regresija su metode za identifikaciju statistička zavisnost između proučavanih varijabli. “Na osnovu analize empirijskih podataka prikupljenih tokom istraživanja, opisana je ne samo činjenica postojanja statističke zavisnosti, već i matematička formula funkcije...
(Marketinško istraživanje)

METODA ISTRAŽIVANJA KORELACIJE I REGRESIJE

Jedna od metoda modeliranja ekonomskim procesima je metoda istraživanja korelacije-regresije. Modeliranje je proces izražavanja složenih međusobno povezanih ekonomskih pojava znači matematičke formule i simbole. Kombinacija kvalitativna analiza koristeći matematički...
(Opća i primijenjena statistika)

KORELACIJSKA I REGRESIJSKA ANALIZA

Statistička studija ekonomskih i tehnološkim procesima je trenutno jedan od bitni alati u razvoju sistema upravljanja procesima. Poznavanje odnosa između parametara omogućava vam da identifikujete ključne faktore koji utiču na kvalitetu gotovog proizvoda ili proučavanog ...
(Matematika i ekonomsko-matematički modeli)

Velike greške (promašaji) spadaju među greške koje se nasumično mijenjaju s ponovljenim opažanjima. Oni po svojoj vrijednosti jasno premašuju greške opravdane uvjetima eksperimenta. Pod promašajem se podrazumeva vrednost greške čije odstupanje od centra distribucije značajno premašuje vrednost opravdanu objektivnim uslovima merenja. Stoga, sa stanovišta teorije vjerovatnoće, pojava promašaja je malo vjerovatna.

Grube greške mogu biti uzrokovane nekontroliranim promjenama uslova mjerenja, kvarom, greškama operatera itd.

Za otklanjanje grubih grešaka koristi se aparat za testiranje statističkih hipoteza.

U mjeriteljstvu se koriste statističke hipoteze koje se podrazumijevaju kao hipoteze o obliku nepoznate raspodjele, odnosno o parametrima poznatih distribucija.

Primjeri statističkih hipoteza:

Razmatrani uzorak (ili njegov poseban rezultat) pripada opštoj populaciji;

Opšta populacija je raspoređena prema normalan zakon;

varijansa od dva normalne kolekcije su jednake jedna drugoj.

U prve dvije hipoteze postavljena je pretpostavka o vrsti nepoznate distribucije i pripadnosti pojedinačnih (sumnjivih) rezultata. ovu vrstu distribucije, au trećem - o parametrima dvije poznate distribucije. Uz postavljenu hipotezu razmatra se i hipoteza koja joj je u suprotnosti. Zove se nulta (osnovna) hipoteza. Konkurentna (alternativa) je ona koja je u suprotnosti sa nulom.

Prilikom predlaganja i prihvatanja hipoteze mogu se pojaviti sljedeća četiri slučaja:

hipoteza je prihvaćena, a zapravo je tačna;

Hipoteza je tačna, ali je pogrešno odbačena. Rezultirajuća greška naziva se greška prve vrste, a vjerovatnoća njenog nastanka naziva se nivoom značaja i označava q(α );

hipoteza je odbačena, au stvarnosti je netačna;

Hipoteza je netačna, ali je pogrešno prihvaćena. Greška koja se javlja u ovom slučaju naziva se greškom druge vrste, a vjerovatnoća njenog nastanka označava se sa β .

Vrijednost 1 - β, tj. naziva se vjerovatnoća da će hipoteza biti odbačena kada je pogrešna moć kriterijuma.

Treba napomenuti da se u regulatornoj dokumentaciji o statističkoj kontroli kvaliteta proizvoda i udžbenicima o upravljanju kvalitetom vjerovatnoća prepoznavanja serije dobrih proizvoda neupotrebljivom (tj. greške prve vrste) naziva „rizikom proizvođača“, a vjerovatnoća prihvatanja neupotrebljive serije naziva se „rizik potrošača“.

Sve statistički kriterijumi su slučajne varijable koje uzimaju određene vrijednosti(tabele kritičnih vrijednosti). Područje prihvatanja hipoteze (područje dozvoljene vrijednosti) je skup vrijednosti kriterija pod kojima se hipoteza prihvaća. Kritičan je skup vrijednosti kriterija kod kojih se nulta hipoteza odbacuje. Područje prihvatanja hipoteze i kritično područje razdvojene su kritičnim tačkama, koje su tabelarne vrijednosti kriterija.

Područje odbacivanja hipoteze, kao što je prikazano na slici 1, može biti jednostrano (desno ili lijevo) i dvostrano.

desna ruka

K obs > k cr, gdje k cr - pozitivan broj (slika 1, a).

lijevo naziva se kritična oblast definisana nejednakošću

K obs< k кр, gdje k cr - negativan broj (slika 1, b).

bilateralni naziva se kritična oblast definisana nejednakostima

K obs > k 1 ; K obs 2, gdje k 2 >k 1 .

Ako a kritične tačke su simetrične u odnosu na nulu, dvostrano kritično područje je određeno nejednačinama: K obs<-k кр, K набл >k cr, ili ekvivalentna nejednakost \K obl \>k kr(Slika 1, c).

Slika 1 - Grafička interpretacija distribucije područja prihvatanja hipoteze

Osnovni princip testiranja statističkih hipoteza je formuliran na sljedeći način: ako promatrana (eksperimentalna) vrijednost kriterija pripada kritičnom području, hipoteza se odbacuje; ako promatrana vrijednost kriterija pripada području prihvatljivosti hipoteze , hipoteza je prihvaćena.

Statističko testiranje hipoteze se provodi za prihvaćeni nivo značajnosti q(uzeto jednako 0,1; 0,05; 0,01, itd.). Dakle, prihvaćeni nivo značaja q = 0,05 znači da je napredna nula statistička hipoteza može se prihvatiti s povjerenjem P= 0,95. Ili postoji li vjerovatnoća da se ova hipoteza odbije (napravi grešku tipa I) jednaka P= 0,95.

Nul-statistička hipoteza potvrđuje da testirani „sumnjivi” rezultat mjerenja (posmatranja) pripada ovoj grupi mjerenja.

Formalni kriterij za anomalni rezultat promatranja (i, shodno tome, osnova za prihvatanje konkurentske hipoteze: “sumnjivi” rezultat ne pripada ovoj grupi mjerenja) je granica udaljena od centra distribucije vrijednošću tS, tj.:

(1)

gdje x isub- rezultat posmatranja, provjerenog na prisustvo grube greške; t- koeficijent u zavisnosti od vrste i zakona distribucije, veličine uzorka, nivoa značajnosti; S - RMS.

Stoga, granice greške zavise od tipa distribucije, veličine uzorka i odabranog nivoa pouzdanosti.

Prilikom obrade već dostupnih rezultata opservacije, proizvoljno odbacite individualni rezultati ne treba koristiti, jer to može dovesti do fiktivnog povećanja tačnosti rezultata mjerenja. Grupa mjerenja (uzorak) može sadržavati nekoliko grubih grešaka i njihovo otklanjanje se vrši uzastopno, jednu po jednu.

Sve metode za otklanjanje grubih grešaka (promašaja) mogu se podijeliti na dva glavna tipa:

Metode isključenja sa poznatim opštim RMS;

Metode isključenja za nepoznati opći RMS.

U prvom slučaju X c . R. a RMS se izračunava na osnovu rezultata cijelog uzorka, u drugom slučaju sumnjivi rezultati se uklanjaju iz uzorka prije izračunavanja.

U slučaju ograničenog broja zapažanja i (ili) složenosti procjene parametara zakona distribucije, preporučuje se isključivanje grubih grešaka korištenjem približnih koeficijenata tipa distribucije. Ovo isključuje vrijednosti x i< x r- i x i> x r+ , gdje x r - , x r+ – granice promašaja određene izrazima:

(2),(3)

gdje A– koeficijent čija se vrijednost bira u zavisnosti od specificiranog nivoa pouzdanosti u rasponu od 0,85 do 1,30 (preporučuje se odabir maksimalne vrijednosti ALI jednako 1,3); γ – kontra-kurtosis, čija vrijednost zavisi od oblika zakona raspodjele količine (ZRV).

Nakon otklanjanja promašaja, operacija utvrđivanja procjena distributivnog centra i standardne devijacije rezultata posmatranja i mjerenja mora se ponoviti.

Budući da su u praksi mjerenja češća s nepoznatim RMS-om (ograničen broj opažanja), u priručniku se razmatraju sljedeći kriteriji za provjeru sumnjivih (u smislu grešaka) rezultata opažanja: Irvin, Romanovski, raspon varijacije, Dixon, Smirnov, Chauvin.

Pošto kriterijumski zahtevi (koeficijenti) koji određuju granicu iza koje su „grubi“ (u smislu grešaka) rezultati posmatranja različitih autora su različiti, onda provjeru treba izvršiti istovremeno prema nekoliko kriterija (preporučuje se korištenje najmanje tri od dolje navedenih). Konačan zaključak o pripadnosti „sumnjivih“ rezultata razmatranom skupu zapažanja treba donijeti prema većini kriterija. Pored toga, izbor kriterijuma za određivanje grubih grešaka treba izvršiti nakon konstruisanja histograma rezultata posmatranja. Po vrsti histograma vrši se preliminarna identifikacija vrste zakona raspodjele (normalan, blizak normalnom ili različit od njega).

Irwinov kriterijum. Za dobijene eksperimentalne podatke koeficijent je određen formulom:

(4)

gdje x n + 1, x n– najviše vrijednosti slučajna varijabla; S je standardna devijacija izračunata za sve vrijednosti uzorka.

Zatim se ovaj koeficijent upoređuje sa tabelarnom vrijednošću λq, čije su moguće vrijednosti date u tabeli 1.

Tabela 1 - Irwinov kriterij λq.

Ako a λ >λ q , tada nulta hipoteza nije potvrđena, odnosno rezultat je pogrešan i treba ga isključiti tokom dalje obrade rezultata posmatranja.

Kriterijum Romanovskog. Konkurentska hipoteza o prisutnosti grubih grešaka u sumnjivim rezultatima potvrđuje se ako je tačna sljedeća nejednakost:

(5)

gdje tp- kvantil Studentove distribucije za datu vjerovatnoću povjerenja sa brojem stupnjeva slobode k = n -k n (k n - broj sumnjivih zapažanja). Fragment kvantila za Studentovu distribuciju predstavljen je u tabeli 2.

Procjene bodova distribucija i RMS S rezultate

zapažanja se izračunavaju bez uzimanja u obzir k n sumnjiva zapažanja.

Tabela 2 - Studentov kriterijum tp(Kvantili učenika)

Kriterijum raspona varijacije. Je jedan od jednostavne metode isključivanje grube greške merenja (promašaja). Da biste ga koristili, odredite raspon varijantne serije naručeni skup zapažanja (x 1 ≤x 2 ≤...≤x k ≤...≤x n):

Ako je bilo koji član serije varijacija, na primjer x k , oštro razlikuje od svih ostalih, tada se vrši provjera pomoću sljedeće nejednakosti:

(7)

gdje X- srednja vrijednost uzorka aritmetička vrijednost, izračunato nakon isključenja očekivanog promašaja; z- vrijednost kriterija.

Nul hipoteza (o odsustvu grube greške) je prihvaćena ako naznačena nejednakost izvedeno. Ako a x k ne zadovoljava uslov (7), onda se ovaj rezultat isključuje iz serije varijacija.

Koeficijent z zavisi od broja članova varijacione serije n koji je predstavljen u tabeli 3.

Tabela 3 - Kriterijum raspona varijacije

Dixonov kriterijum. Kriterijum se zasniva na pretpostavci da greške merenja odgovaraju normalnom zakonu (prethodno je potrebno izgraditi histogram rezultata posmatranja) i testiranju hipoteze o pripadnosti zakonu normalne distribucije. Kada se koristi kriterijum, Dixonov koeficijent (uočena vrednost kriterijuma) se izračunava da bi se testirala najveća ili najmanja ekstremna vrednost u zavisnosti od broja merenja. U tabeli 4 prikazane su formule za izračunavanje koeficijenata. Odds r 10 , r 11 primjenjuju se kada postoji jedan izuzetak, i r 21 i r 22 - kada postoje dva izbacivanja. Potreban je početni redosled rezultata merenja (veličina uzorka). Kriterijum se primjenjuje kada uzorak može sadržavati više od jedne grube greške.

Tabela 4 – Formule Dixonovog koeficijenta

Vrijednosti Dixonovih koeficijenata izračunate za uzorak pomoću formula r u poređenju sa prihvaćenom (tabelarno) vrijednošću Dixonovog kriterija rq(tabela 5).

Nulta hipoteza o odsustvu grube greške je zadovoljena ako je nejednakost r< rq.

Ako a r> rq, tada se rezultat priznaje kao gruba greška i

isključeni iz dalje obrade.

Tabela 5 - Vrijednosti kriterija Dixonovih koeficijenata (na prihvaćenom nivou

značaj q)

Wright kriteriji. Pravilo tri sigma jedan je od najjednostavnijih testova za rezultate koji se pridržavaju zakona normalne distribucije. Suština pravila tri sigma: ako je slučajna varijabla normalno raspoređena, onda apsolutna vrijednost njegovo odstupanje od matematičkog očekivanja ne prelazi tri puta standardnu devijaciju.

U praksi se pravilo tri sigma primjenjuje na sljedeći način: ako je distribucija slučajne varijable koja se proučava nepoznata, ali je uvjet specificiran u datom pravilu ispunjen, onda postoji razlog za pretpostavku da je proučavana varijabla normalno distribuirana; inače se ne distribuira normalno. U tu svrhu se za uzorak (uključujući sumnjivi rezultat) izračunava centar distribucije i procjena standardne devijacije rezultata posmatranja. Rezultat koji zadovoljava uslov

,

smatra se da ima grubu grešku i uklanja se, a prethodno izračunate karakteristike distribucije se rafiniraju.

Ovaj kriterij je sličan Wrightov kriterijum, na osnovu činjenice da ako je zaostala greška veća od četiri sigma, onda je ovaj rezultat mjerenja gruba greška i treba ga isključiti tokom dalje obrade. Oba kriterijuma su pouzdana kada je broj merenja veći od 20…50. Legitimno ih je koristiti kada je poznata vrijednost opšte standardne devijacije ( S).

Može se ispostaviti da za nove vrijednosti i S ostali rezultati će pasti u kategoriju anomalija.

Smirnovljev kriterijum. Za veličine uzorka koristi se Smirnov kriterijum P≥ 25 ili na poznate vrednosti opšte srednje i SKO. Postavlja manje rigidne granice za grubu grešku. Za implementaciju ovog kriterija, stvarne vrijednosti kvantila distribucije (uočena vrijednost kriterija) izračunavaju se pomoću formule:

(8)

Pronađena vrijednost se upoređuje s kriterijem β k dato u tabeli 6

Tabela 6 - Kvantili distribucije β k

Šovinov kriterijum. Chauvenetov kriterij se koristi za zakone koji nisu u suprotnosti sa normalnim i zasniva se na određivanju broja očekivanih rezultata promatranja. n cool, koji imaju velike greške kao i sumnjiva. Hipoteza o prisutnosti grube greške je prihvaćena ako je ispunjen sljedeći uvjet:

Procedura za testiranje hipoteze je sljedeća:

1) izračunavaju se aritmetička sredina i standardna devijacija S rezultati opservacije za cijeli uzorak;

2) iz tabele normalizovane normalne distribucije (Prilog 1 - integralna funkcija normalizovane normalne raspodele) po vrednosti

utvrđuje se vjerovatnoća sumnjivog rezultata u opštoj populaciji brojeva n:

(9)

3) broj očekivanih rezultata fl određuje se formulom:

Gore navedeni kriteriji u mnogim slučajevima se ispostavljaju kao “teški”. Tada se preporučuje korištenje kriterija grube greške" k", ovisno o veličini uzorka P i prihvaćeni nivo samopouzdanja R.

Tabela 7 - Zavisnost kriterija bruto greške k na veličinu uzorka P

i nivo samopouzdanja R

Za distribucije koje nisu normalne, klase kao što su dvije modalne kompozicije okruglog vrha normalnog i diskretna distribucija sa kurtozom ε = 1,5 - 3,0; peaked bimodal; kompozicije diskretne dvovrijedne raspodjele i Laplaceove raspodjele sa ekscesom ε = 1,5 - 6,0; kompozicije uniformne distribucije sa eksponencijalnom distribucijom kurtozisa ε = 1,8-6,0 i klasu eksponencijalnih distribucija unutar promjene kurtozisa ε = 1,8-6,0 granica bruto greške je određena vrijednošću ± (t gr . σ ) ili ±( t gr . S), gdje:

(11)

gdje γ - kontraeksces;

(12)

Greške u određivanju procjena S Sjeverni Kazahstan i t sp su u negativnoj korelaciji, tj. povećanje standardne devijacije S praćeno smanjenjem t zp. Stoga, određivanje granica grube greške za zakone koji nisu normalni, sa ekscesom ε < 6 koristeći kriterijum t zp je dovoljno precizan i može se široko koristiti u praksi.

ocjene , S i ε treba izračunati nakon isključivanja sumnjivih rezultata iz uzorka. Nakon izračunavanja granica grube greške, vraćaju se rezultati opservacija koje su unutar granica, a prethodno pronađene karakteristike distribucije se rafiniraju.

Za ujednačenu distribuciju moguće je uzeti vrijednost ±1,8 . S.

Razmotrimo primjer primjena kriterija za otklanjanje grubih grešaka u mjerenju brzine udarni talas. Rezultati su prikazani u tabeli 8.

Tabela 8 – Rezultati zapažanja

Potrebno je utvrditi da li rezultat posmatranja sadrži V=3,50 km/s bruto greška.

Za grafička definicija u obliku zakona distribucije, konstruisaćemo histogram. Prilikom konstruiranja, podjela na intervale se vrši na način da se izmjerene vrijednosti ispostavi da su sredina intervala, što je prikazano na slici 2.

Koristi se za procjenu sumnjivih vrijednosti uzorka za grube greške. Redoslijed njegove primjene je sljedeći.
Naći izračunatu vrijednost kriterija λ calc = (|x do - x do prev |)/σ,
gdje x k- upitna vrijednost x do prev- prethodna vrijednost u nizu varijacija, ako x k se procjenjuje iz maksimalnih vrijednosti serije varijacije, ili sljedeće, ako x k se procjenjuje iz minimalnih vrijednosti serije varijacija (Irwin korišten u opšti slučaj izraz "prvo značenje"); σ je opšta standardna devijacija (RMS) kontinuirane normalno raspoređene slučajne varijable.
Ako a λ calc > λ tab, x k – greška. Evo λ stol- tabelarna vrijednost (procentualni poen) Irwinovog kriterija.
Pitanja koja se pojavljuju u ovom slučaju opisana su na stranici. Konkretno, u originalnom članku, tabelarne vrijednosti kriterija izračunate su za normalno raspoređenu slučajnu varijablu s poznatom općom standardnom devijacijom (MSD) σ . Ukoliko σ najčešće nepoznat, Irwin je predložio da se koristi u proračunima umjesto σ standardna devijacija uzorka s određena formulom
gdje n je veličina uzorka, x i su elementi uzorka, x sri je srednja vrijednost uzorka.
Ovaj pristup se obično koristi u praksi. Međutim, nije potvrđena prihvatljivost korištenja standardne devijacije uzorka, a time i procentnih poena za opću standardnu devijaciju.
U ovom članku su prikazane tabelarne vrijednosti (procentualne točke) Irwinovog kriterija, izračunate metodom statističkog kompjuterskog modeliranja koristeći uzorak standardne devijacije za maksimalnu vrijednost serije varijacija sa standardnom normalnom distribucijom slučajne varijable (sa drugim parametrima). normalne distribucije, kao i za minimalna vrijednost varijacionim serijama, dobijaju se isti rezultati). Za svaku veličinu uzorka n simulirano 10 6 uzoraka. Kako pokazuju preliminarni proračuni, paralelne definicije razlike u vrijednostima procentnih poena mogu biti do 0,003. Budući da su vrijednosti zaokružene na 0,01, u sumnjivim slučajevima vršena su 2 do 4 paralelna određivanja.
Osim toga, prema podacima, izračunate su tabelarne vrijednosti Irwinovog kriterija za poznati opći SD i upoređene s onima datim u .
Od u praktična primjena Prema Irwinovom kriteriju, određene poteškoće često nastaju zbog nedostatka književni izvori tabelarne vrijednosti kriterija za neke veličine uzorka, izračunate su istom metodom statističkog kompjuterskog modeliranja, a neke od vrijednosti nedostaju u tabelarnim vrijednostima.
Jasno je da sa veličinom uzorka od 2, primjena testa korištenjem standardne devijacije uzorka nema smisla. To potvrđuje i činjenica da pojednostavljenje izraza za izračunatu vrijednost kriterija sa uzorkom standardne devijacije daje Kvadratni korijen od dva, što jasno pokazuje besmislenost primjene kriterija sa veličinom uzorka od 2 i standardnom devijacijom uzorka.

Rezultati su prikazani u tabeli. jedan.
Tabela 1 - Tabelarne vrijednosti Irwinovog kriterija za ekstremni elementi varijantne serije.
Veličina uzorka Prema generalu Selektivnom standardnom devijacijom
Nivo značaja
0,1 0,05 0,01 0,1 0,05 0,01
2 2,33* 2,77* 3,64* - - -
3 1,79* 2,17* 2,90* 1,62 1,68 1,72
4 1,58 1,92 2,60 1,55 1,70 1,88
5 1,45 1,77 2,43 1,45 1,64 1,93/
6 1,37 1,67 2,30 1,38 1,60 1,94
7 1,31 1,60 2,22 1,32 1,55 1,93
8 1,26 1,55 2,14 1,27 1,51 1,92
9 1,22 1,50 2,09 1,23 1,47 1,90
10 1,18* 1,46* 2,04* 1,20 1,44 1,88
11 1,15 1,43 2,00 1,17 1,42 1,87
12 1,13 1,40 1,97 1,15 1,39 1,85
13 1,11 1,38 1,94 1,13 1,37 1,83
14 1,09 1,36 1,91 1,11 1,35 1,82
15 1,08 1,34 1,89 1,09 1,33 1,80
20 1,03* 1,27* 1,80* 1,03 1,27 1,75
25 0,99 1,23 1,74 0,99 1,22 1,70
30 0,96* 1,20* 1,70* 0,96 1,19 1,66
35 0,93 1,17 1,66 0,94 1,16 1,63
40 0,91* 1,15* 1,63* 0,92 1,14 1,61
45 0,89 1,13 1,61 0,90 1,12 1,59
50 0,88* 1,11* 1,59* 0,89 1,10 1,57
60 0,86* 1,08* 1,56* 0,87 1,08 1,54
70 0,84* 1,06* 1,53* 0,85 1,06 1,52
80 0,83* 1,04* 1,51* 0,83 1,04 1,50
90 0,82* 1,03* 1,49* 0,82 1,03 1,48
100 0,81* 1,02* 1,47* 0,81 1,02 1,46
200 0,75* 0,95* 1,38* 0,75 0,95 1,38
300 0,72* 0,91* 1,33* 0,72 0,91 1,33
500 0,69* 0,88* 1,28* 0,69 0,88 1,28
1000 0,65* 0,83* 1,22* 0,65 0,83 1,22
Napomena: vrijednosti označene zvjezdicom se izračunavaju iz podataka i, ako je potrebno, prilagođavaju se tokom statističke analize. kompjuterska simulacija. Preostale vrijednosti su izračunate pomoću statističkih kompjuterskih simulacija.
Ako uporedimo procente za poznati opšti RMS dat u tabeli. 1, sa odgovarajućim procentima datim u , razlikuju se u nekoliko slučajeva za 0,01, au jednom slučaju za 0,02. Po svemu sudeći, procentualni poeni dati u ovom članku su tačniji, jer su u sumnjivim slučajevima provjereni statističkim kompjuterskim modeliranjem.
Iz Tabele 1 se može vidjeti da se procentualni poeni Irwinovog kriterija pri korištenju standardne devijacije uzorka s relativno malim veličinama uzorka značajno razlikuju od procentnih poena kada se koristi opšta standardna devijacija. Samo pri značajnim veličinama uzorka, oko 40, procentualni poeni se približavaju. Dakle, kada koristite Irwinov kriterij, trebali biste koristiti procentne poene date u tabeli. 1, uzimajući u obzir činjenicu da je izračunata vrijednost kriterija dobivena prema opštoj ili uzorkovnoj standardnoj devijaciji.
LITERATURA
1. Irvin J.O. O kriteriju za odbacivanje vanjske opservacije //Biometrika.1925. V. 17. P. 238-250.
2. Kobzar A.I. Primijenjeno matematička statistika. - M.: FIZMATLIT, 2006. - 816s. © V.V. Zalyazhnykh
Kada koristite materijale, stavite link.

Veličina uzorka	Prema generalu			Selektivnom standardnom devijacijom
	Nivo značaja
	0,1	0,05	0,01	0,1	0,05	0,01
2	2,33*	2,77*	3,64*	-	-	-
3	1,79*	2,17*	2,90*	1,62	1,68	1,72
4	1,58	1,92	2,60	1,55	1,70	1,88
5	1,45	1,77	2,43	1,45	1,64	1,93/
6	1,37	1,67	2,30	1,38	1,60	1,94
7	1,31	1,60	2,22	1,32	1,55	1,93
8	1,26	1,55	2,14	1,27	1,51	1,92
9	1,22	1,50	2,09	1,23	1,47	1,90
10	1,18*	1,46*	2,04*	1,20	1,44	1,88
11	1,15	1,43	2,00	1,17	1,42	1,87
12	1,13	1,40	1,97	1,15	1,39	1,85
13	1,11	1,38	1,94	1,13	1,37	1,83
14	1,09	1,36	1,91	1,11	1,35	1,82
15	1,08	1,34	1,89	1,09	1,33	1,80
20	1,03*	1,27*	1,80*	1,03	1,27	1,75
25	0,99	1,23	1,74	0,99	1,22	1,70
30	0,96*	1,20*	1,70*	0,96	1,19	1,66
35	0,93	1,17	1,66	0,94	1,16	1,63
40	0,91*	1,15*	1,63*	0,92	1,14	1,61
45	0,89	1,13	1,61	0,90	1,12	1,59
50	0,88*	1,11*	1,59*	0,89	1,10	1,57
60	0,86*	1,08*	1,56*	0,87	1,08	1,54
70	0,84*	1,06*	1,53*	0,85	1,06	1,52
80	0,83*	1,04*	1,51*	0,83	1,04	1,50
90	0,82*	1,03*	1,49*	0,82	1,03	1,48
100	0,81*	1,02*	1,47*	0,81	1,02	1,46
200	0,75*	0,95*	1,38*	0,75	0,95	1,38
300	0,72*	0,91*	1,33*	0,72	0,91	1,33
500	0,69*	0,88*	1,28*	0,69	0,88	1,28
1000	0,65*	0,83*	1,22*	0,65	0,83	1,22