Biografier Kjennetegn Analyse

Metoder for informasjonsbehandling og prognoser for studenter av spesialiteten: "Administrasjon av organisasjoner". Tabellverdier av Irwin-kriteriet for de ekstreme elementene i variasjonsserien V.V.

La være den observerte prøven og være variasjonsserien konstruert fra den. Hypotesen som skal testes er at alle tilhører det samme befolkning(ingen uteliggere). En alternativ hypotese er at det er uteliggere i det observerte utvalget.

I henhold til Chauvenet-kriteriet er et element i volumprøven en outlier hvis sannsynligheten for avvik fra middelverdien ikke er større enn .

Følgende Chauvenet-statistikk er kompilert:

hvor er midlet,

Prøveavvik

La oss bestemme hvilken fordeling statistikken har når hypotesen er oppfylt. For å gjøre dette, antar vi at selv ved små tilfeldige variabler og er uavhengige, så er distribusjonstettheten tilfeldig variabel ser ut som:


Verdiene til denne distribusjonsfunksjonen kan beregnes ved å bruke den matematiske pakken Maple 14, og erstatte de oppnådde verdiene i stedet for de ukjente parameterne.

Hvis statistikk skal verdien () gjenkjennes som en uteligger. Kritiske verdier er gitt i tabellen (se vedlegg A). I stedet, i formel (1.1), erstatter vi ekstreme verdier for å se etter uteliggere.

Irwins kriterium

Dette kriteriet brukes når fordelingsavviket er kjent på forhånd.

Et utvalg av volum tas fra en normal populasjon, og en variasjonsserie sammenstilles (sortert i stigende rekkefølge). De samme hypotesene og er vurdert som i forrige kriterium.

Når den største (minste) verdien anerkjennes som en uteligger med en sannsynlighet. Kritiske verdier er oppført i tabellen.

Grubbs kriterium

La en prøve trekkes ut og en variasjonsserie bygges på den. Hypotesen som skal testes er at alle () tilhører den samme generelle befolkningen. Når man sjekker for en uteligger av den største utvalgsverdien, er den alternative hypotesen at de tilhører én lov, men til en annen, vesentlig forskjøvet til høyre. Når du sjekker for en uteligger av den største verdien av utvalget, har statistikken til Grubbs-testen formen

hvor beregnes ved formel (1.2), og - ved (1.3)

Når man tester for en uteligger av den minste prøveverdien, antar den alternative hypotesen at den tilhører en annen lov, vesentlig forskjøvet til venstre. PÅ denne saken den beregnede statistikken tar formen

hvor beregnes ved formel (1.2), og - ved (1.3).

Statistikk eller brukes når variansen er kjent på forhånd; statistikk og -- når variansen er estimert fra utvalget ved hjelp av relasjon (1.3).

Maks eller minimumselement Utvalget anses som en uteligger hvis verdien av den tilsvarende statistikken overstiger den kritiske verdien: eller hvor er det angitte signifikansnivået. Kritiske verdier og er gitt i sammendragstabeller (se vedlegg A). Statistikken oppnådd i denne testen, når nullhypotesen er oppfylt, har samme fordeling som statistikken i Chauvenet-testen.

For > 25 kan man bruke tilnærminger for kritiske verdier

hvor er kvantilen til standarden normal distribusjon.

A er tilnærmet som følger

Hvis variansen () og den matematiske forventningen (µ - middelverdi) er kjent i det ekstraherte utvalget, brukes statistikken

De kritiske verdiene til denne statistikken er også oppført i tabellene. Hvis, så anses uteliggeren som signifikant og den alternative hypotesen aksepteres.


Oppgaver for selvstudium disipliner.

Øvelse 1. I samsvar med alternativet, simuler et sett med empiriske data oppnådd som et resultat av måling av en endimensjonal funksjon. For å gjøre dette, må du tabulere funksjonen:

, ,

og få 15 - 20 påfølgende data. Her antagelig karakteristikken til skiltet (reflekterer hovedtrenden til skiltet), og interferensen (feilene) av målingene, som var et resultat av manifestasjonen av ulike typer ulykker.

Opprinnelige dataalternativer:

Utfør oppdagelsen av unormale nivåer av dataserien oppnådd ved å tabulere funksjonen og utfør utjevningen:

en). Irwins metode, i henhold til formelen

,

.

De beregnede verdiene sammenlignes med tabellverdiene til Irwin-kriteriet:

Irwins testbord

Tabellen viser verdiene til Irwin-testen for signifikansnivået (med 5 % feil).

b). ved å sjekke forskjellene i gjennomsnittsnivåene, dele tidsserien med data i omtrent to like deler og beregne gjennomsnittsverdien og variansen for hver del. Deretter kontrollerer du likheten mellom variansene til begge deler ved å bruke Fisher-testen. Hvis hypotesen om varianslikhet er akseptert, fortsett å teste hypotesen om fravær av en trend ved å bruke Students t-test. Å beregne empirisk verdi statistikk, bruk formler:

,

hvor er gjennomsnittet standardavvik gjennomsnittlige forskjeller:

.

Sammenlign den beregnede verdien av statistikk med tabellen.

i). Foster-Stuart-metoden.

2. Utfør mekanisk utjevning av nivåene i serien:

en). enkel glidende gjennomsnittsmetode;

b). metode for vektet glidende gjennomsnitt;

i). Eksponentiell utjevningsmetode.

Oppgave 2. Datablad økonomiske indikatorer, er det gitt en tidsserie med månedlige transportvolumer (bundet til et bestemt område) av landbruksvarer i konvensjonelle enheter.

Bruk av Chetverikov-metoden for å trekke ut komponentene i tidsserien:

en). justere den empiriske serien ved å bruke et sentrert glidende gjennomsnitt med en utjevningsperiode;

b). trekk det oppnådde foreløpige estimatet av trenden fra den opprinnelige empiriske serien: .

i). Beregn for hvert år (etter rad) standardavviket til verdien ved å bruke formelen

G). finn den foreløpige verdien av den gjennomsnittlige sesongbølgen: .

e). få en serie blottet for en sesongbasert bølge: .

e). den resulterende serien jevnes ut ved å bruke et enkelt glidende gjennomsnitt med et utjevningsintervall lik fem, og et nytt trendestimat oppnås.

og). beregne avvikene til serien fra den opprinnelige empiriske serien:

.

h). de resulterende avvikene behandles i samsvar med paragrafene. i). og d). å identifisere nye verdier av sesongbølgen.

og). å beregne styrkefaktoren til sesongbølgen i henhold til formlene og videre (selve koeffisienten):

.

Stressfaktoren er ikke beregnet for første og siste år.

til). Bruk spenningsfaktoren til å beregne sluttverdiene sesongmessig komponent tidsserier: .

Oppgave 3. Tidsserien er gitt i tabellen:

Gjør et foreløpig utvalg av den beste vekstkurven:

en). endelig forskjellsmetode (Tintner);

b). vekstegenskaper metode.

2. For den originale serien, konstruer lineær modell , etter å ha bestemt parameterne ved minste kvadraters metode.

3. For den første tidsserien, bygg en adaptiv Brown-modell med utjevningsparameteren og ; velge nai beste modellen brun , hvor er ledetiden (antall skritt fremover).

4. Vurder egnetheten til modeller basert på forskning:

en). nærhet matematisk forventning null gjenværende komponent; kritisk verdi av studentens statistikk å akseptere (for selvtillitsnivå 0,70);

b). tilfeldige avvik av gjenværende komponent i henhold til kriteriet for topper (vendepunkter); utføre beregninger basert på forholdet ;

i). uavhengighet (manglende autokorrelasjon) av nivåene til en rekke residualer, enten ved Durbin-Watson-testen (bruk nivåene og som kritiske), eller ved den første autokorrelasjonskoeffisienten (ta det kritiske nivået lik );

G). normaliteten til distribusjonsloven til restkomponenten basert på RS-kriteriet (som kritiske nivåer godta intervallet (2,7 - 3,7)).

5. Vurder nøyaktigheten til modellene ved å bruke standardavviket og gjennomsnittet relativ feil tilnærminger.

6. Basert komparativ analyse tilstrekkeligheten og nøyaktigheten til modellene, velg den beste modellen, i henhold til hvilken du skal bygge punkt- og intervallprognoser to skritt foran (). Vis resultatene av prognoser grafisk.

Oppgave 4. Evalueringen av prosessorene til 10 arbeidsstasjoner i det lokale nettverket, bygget på grunnlag av maskiner av omtrent samme type, men fra forskjellige produsenter (noe som innebærer noen avvik i parametrene til maskinene fra basismodellen). For å teste driften av prosessorer ble det brukt en blanding av ICOMP 2.0-typen, som er basert på to hovedtester:

1. 125.turb3D - turbulenssimuleringstest i kubikkvolum(applikasjonsprogramvare);

2.NortonSI32 - ingeniørprogram AutoCAD type

og en hjelpetest for normalisering av databehandlingstid SPECint_base95. Prosessorene ble evaluert av den vektede utførelsestiden for blandingen, normalisert av effektiviteten til basisprosessoren, i samsvar med formelen

hvor er utførelsestiden for den th testen;

vekten av testen;

effektiviteten til basisprosessoren på m-testen.

Hvis uttrykk (1) er logaritmisk, får vi:

og etter å ha endret navn på variablene:

base test behandlingstid SPECint_base95 ;

logaritme av behandlingstiden for den første testen,

logaritme for behandlingstid for den andre testen, regresjonskoeffisient oppnådd i vurderingene (testvekt);

regresjonskoeffisient - vekten av testen for å behandle aritmetiske operasjoner i heltall (grunnleggende test).

1. Bygg en regresjonsfunksjon (empirisk) basert på måledataene gitt i tabellen, evaluer regresjonskoeffisientene og kontroller modellen for adekvans (beregn kovariansmatrisen, parkorrelasjonskoeffisienter, bestemmelseskoeffisient).

Dataalternativer:

Valg 1.

Alternativ 2.

Alternativ 3.

Alternativ 4.

Ved relativ glidning av deler av friksjonspar oppstår skade på kontaktflatene. Denne typen skade på overflatevolumene til delen kalles ha på. Tap av bare en tusendel av maskinens masse som følge av slitasje fører til fullstendig tap av ytelse. Hvert tredje år...
(Mekanikk. Grunnleggende om beregning og design av maskindeler)
  • SYSTEMSTABILITETSKRITERIER OG METODER FOR BESTEMMELSE AV KRITISKE BELASTNINGER
    Det er tre hovedkriterier for stabiliteten til strukturer: dynamisk, statisk og energi, som også bestemmer metodikken for å beregne strukturer for stabilitet. en. Dynamisk(ifølge Lyapunov) kriterium er basert på studiet av løsninger på ligningene for dynamisk bevegelse som avviker fra den første ...
    (Strukturell mekanikk flate stangsystemer)
  • KRITERIER FOR VALG AV ANNONSE DISTRIBUSJONSKANALER
    Blant alle beslutningene som tas i planprosessen, er det viktigste valg av spesifikke medier innenfor hvert medie. Som regel har medieplanleggere en tendens til å velge de mediene som lar dem oppnå følgende mål: 1) oppnå en gitt frekvens for presentasjon av en reklamemelding ...
    (Psykologi for massekommunikasjon)
  • Korrelasjons-regresjonsanalyse
    Korrelasjon og regresjon er metoder for å identifisere statistisk avhengighet mellom de studerte variablene. "Basert på analysen av empiriske data samlet inn under studien, beskrives ikke bare selve eksistensen av en statistisk avhengighet, men også den matematiske formelen til funksjonen ...
    (Markedsundersøkelse)
  • Korrelasjons- OG REGRESJONSFORSKNINGSMETODE
    En av modelleringsmetodene økonomiske prosesser er en korrelasjon-regresjonsforskningsmetode. Modellering er prosessen med å uttrykke komplekse sammenhenger økonomiske fenomener midler matematiske formler og symboler. Kombinasjon kvalitativ analyse bruker matematisk...
    (Generell og anvendt statistikk)
  • KORELLASJON OG REGRESJONSANALYSE
    Statistisk studie av økonomisk og teknologiske prosesser er for tiden en av viktige verktøy i utvikling av prosesskontrollsystemer. Å kjenne forholdene mellom parametere lar deg identifisere nøkkelfaktorene som påvirker kvaliteten på det ferdige produktet eller det studerte ...
    (Matematikk og økonomisk-matematiske modeller)

  • Grove feil (glipp) er blant feilene som endres tilfeldig ved gjentatte observasjoner. De overskrider klart i sin verdi feilene rettferdiggjort av betingelsene for eksperimentet. Glippen forstås som verdien av feilen, hvis avvik fra distribusjonssenteret betydelig overstiger verdien rettferdiggjort av de objektive måleforholdene. Derfor, fra sannsynlighetsteoriens synspunkt, er forekomsten av en glipp usannsynlig.

    Grove feil kan være forårsaket av ukontrollerte endringer i måleforhold, funksjonsfeil, operatørfeil osv.

    For å eliminere grove feil, brukes apparatet for testing av statistiske hypoteser.

    I metrologi brukes statistiske hypoteser, som forstås som hypoteser om formen til en ukjent fordeling, eller om parametrene til kjente fordelinger.

    Eksempler på statistiske hypoteser:

    Det vurderte utvalget (eller dets separate resultat) tilhører den generelle populasjonen;

    Den generelle befolkningen er fordelt iht normal lov;

    variasjon på to vanlige samlinger er like med hverandre.

    I de to første hypotesene ble det gjort en antagelse om typen ukjent fordeling og tilhørigheten til individuelle (mistenkelige) resultater denne arten distribusjoner, og i den tredje - om parametrene til to kjente distribusjoner. Sammen med den fremsatte hypotesen vurderes også en hypotese som motsier den. Null (grunnleggende) hypotesen kalles. Et konkurrerende (alternativ) er det som motsier nullen.

    Når du foreslår og aksepterer en hypotese, kan følgende fire tilfeller oppstå:

    hypotesen er akseptert, og faktisk er den riktig;

    Hypotesen er sann, men den er feilaktig avvist. Den resulterende feilen kalles en feil av den første typen, og sannsynligheten for at den oppstår kalles signifikansnivået og betegnes q(α );

    hypotesen er forkastet, og i virkeligheten er den feil;

    Hypotesen er feil, men er feilaktig akseptert. Feilen som oppstår i dette tilfellet kalles en feil av den andre typen, og sannsynligheten for at den oppstår er betegnet med β .

    Verdi 1 - β, dvs. sannsynligheten for at en hypotese vil bli forkastet når den er feil kalles kraften til kriteriet.

    Det skal bemerkes at i forskriftsdokumentasjonen om statistisk produktkvalitetskontroll og lærebøker om kvalitetsstyring, kalles sannsynligheten for å anerkjenne et parti gode produkter som uegnet (dvs. å gjøre en feil av den første typen) "produsentens risiko". og sannsynligheten for å akseptere en ubrukelig batch kalles "forbrukerens risiko" .

    Alle statistiske kriterier er tilfeldige variabler som tar visse verdier(tabeller over kritiske verdier). Området for aksept av hypotesen (området tillatte verdier) er settet med kriterieverdier som hypotesen er akseptert under. Kritisk er settet med kriterieverdier der nullhypotesen forkastes. Området for aksept av hypotesen og det kritiske området er atskilt med kritiske punkter, som er tabellverdiene til kriteriene.

    Området for avvisning av hypotesen, som vist i figur 1, kan være ensidig (høyre- eller venstresidig) og tosidig.

    høyre hånd

    K obs > k cr, hvor k cr - positivt tall (Figur 1, a).

    venstresidig kalles det kritiske området definert av ulikheten

    K obs< k кр, hvor k cr - negativt tall (Figur 1, b).

    bilateralt kalles det kritiske området definert av ulikhetene

    K obs > k 1 ; K obs 2, hvor k 2 > k 1 .

    Hvis en kritiske punkter er symmetriske med hensyn til null, bestemmes det tosidige kritiske området av ulikhetene: K obs<-k кр, K набл >k cr, eller tilsvarende ulikhet \K obl \>k cr(Figur 1, c).

    Figur 1 - Grafisk tolkning av fordelingen av området for aksept av hypotesen

    Grunnprinsippet for å teste statistiske hypoteser er formulert som følger: hvis den observerte (eksperimentelle) verdien av kriteriet tilhører den kritiske regionen, avvises hypotesen; hvis den observerte verdien av kriteriet tilhører akseptområdet til hypotesen , er hypotesen akseptert.

    Statistisk hypotesetesting utføres for det aksepterte signifikansnivået q(tatt lik 0,1; 0,05; 0,01, etc.). Så det aksepterte nivået av betydning q = 0,05 betyr at den avanserte null statistisk hypotese kan godtas med tillit P= 0,95. Eller er det en sannsynlighet for å forkaste denne hypotesen (gjør en type I feil) lik P= 0,95.

    Den statistiske nullhypotesen bekrefter at det testede «mistenkelige» resultatet av måling (observasjon) tilhører denne gruppen av målinger.

    Det formelle kriteriet for det unormale resultatet av observasjoner (og følgelig grunnlaget for å akseptere en konkurrerende hypotese: det "mistenkelige" resultatet tilhører ikke denne gruppen av målinger) er grensen adskilt fra distribusjonssenteret med verdien tS, dvs.:

    (1)

    hvor x isub- resultatet av observasjonen, kontrollert for tilstedeværelsen av en grov feil; t- koeffisient avhengig av type og distribusjonslov, utvalgsstørrelse, signifikansnivå; S - RMS.

    Dermed avhenger feilmarginene av distribusjonstype, utvalgsstørrelse og valgt konfidensnivå.

    Når du behandler allerede tilgjengelige observasjonsresultater, forkast vilkårlig individuelle resultater bør ikke brukes, da dette kan føre til en fiktiv økning i nøyaktigheten av måleresultatet. En gruppe målinger (prøve) kan inneholde flere grove feil, og deres eliminering utføres sekvensielt, en om gangen.

    Alle metoder for å eliminere grove feil (glipp) kan deles inn i to hovedtyper:

    Eksklusjonsmetoder med en kjent generell RMS;

    Ekskluderingsmetoder for ukjent generell RMS.

    I det første tilfellet X c . R. og RMS beregnes basert på resultatene av hele prøven; i det andre tilfellet fjernes mistenkelige resultater fra prøven før beregning.

    Ved et begrenset antall observasjoner og (eller) kompleksiteten ved å estimere parametrene til fordelingsloven, anbefales det å utelukke grove feil ved å bruke omtrentlige koeffisienter av fordelingstypen. Dette ekskluderer verdiene x i< x r- og x i> x r+ , hvor x r - , x r+ – gå glipp av grenser bestemt av uttrykkene:

    (2),(3)

    hvor EN– koeffisient, hvis verdi velges avhengig av den spesifiserte konfidenssannsynligheten i området fra 0,85 til 1,30 (det anbefales å velge maksimumsverdien MEN lik 1,3); γ – motkurtosis, hvis verdi avhenger av formen til mengdefordelingsloven (ZRV).

    Etter eliminering av feil, må operasjonen for å bestemme estimatene for distribusjonssenteret og standardavviket for resultatene av observasjoner og målinger gjentas.

    Siden målinger er mer vanlig i praksis med ukjent RMS (et begrenset antall observasjoner), vurderes følgende kriterier for kontroll av mistenkelige (når det gjelder feil) observasjonsresultater i manualen: Irvin, Romanovsky, variasjonsområde, Dixon, Smirnov, Chauvin.

    Siden kriteriekravene (koeffisientene) som bestemmer grensen som de "grove" (i betydningen feil) observasjonsresultatene er utenfor. forskjellige forfattere er forskjellige, bør kontrollen utføres samtidig i henhold til flere kriterier (det anbefales å bruke minst tre av de som vurderes nedenfor). Den endelige konklusjonen om tilhørigheten av "mistenkelige" resultater til det vurderte settet med observasjoner bør gjøres i henhold til de fleste kriteriene. I tillegg bør valget av et kriterium for å bestemme grove feil utføres etter å ha konstruert et histogram av observasjonsresultatene. Av typen histogram utføres en foreløpig identifikasjon av typen distribusjonslov (normal, nær normal eller forskjellig fra den).

    Irwins kriterium. For de oppnådde eksperimentelle dataene bestemmes koeffisienten av formelen:

    (4)

    hvor x n + 1, x nhøyeste verdier tilfeldig variabel; S er standardavviket beregnet for alle prøveverdiene.

    Deretter sammenlignes denne koeffisienten med tabellverdien λq, hvis mulige verdier er gitt i tabell 1.

    Tabell 1 - Irwins kriterium λq.

    Hvis en λ >λ q , da er ikke nullhypotesen bekreftet, dvs. resultatet er feil, og det bør utelukkes under videre bearbeiding av observasjonsresultatene.

    Romanovsky-kriterium. Den konkurrerende hypotesen om tilstedeværelsen av grove feil i mistenkelige resultater bekreftes hvis følgende ulikhet er sann:

    (5)

    hvor tp- kvantil av studentens fordeling for en gitt konfidenssannsynlighet med antall frihetsgrader k = n -k n (k n - antall mistenkelige observasjoner). Et fragment av kvantiler for studentfordeling er presentert i tabell 2.

    Poeng estimater distribusjon og RMS S resultater

    observasjoner er beregnet uten hensyn til k n mistenkelige observasjoner.

    Tabell 2 - Elevens kriterium tp(Studentkvantiler)

    Kriterium for variasjonsområde. Er en av enkle metoder utelukkelse av en grov målefeil (miss). For å bruke den, bestemme rekkevidden variantserie bestilt sett med observasjoner (x 1 ≤x 2 ≤...≤x k ≤...≤x n):

    Hvis et medlem av variantserien, for eksempel x k, skiller seg kraftig fra alle andre, så foretas en kontroll ved å bruke følgende ulikhet:

    (7)

    hvor X- prøvegjennomsnitt aritmetisk verdi, beregnet etter ekskludering av forventet glipp; z- kriterieverdi.

    Nullhypotesen (om fravær av en grov feil) aksepteres hvis indikerte ulikhet utført. Hvis en x k ikke tilfredsstiller betingelse (7), er dette resultatet ekskludert fra variasjonsserien.

    Koeffisient z avhenger av antall medlemmer av variasjonsserien n som er presentert i tabell 3.

    Tabell 3 - Kriterium for variasjonsområde

    Dixons kriterium. Kriteriet er basert på antakelsen om at målefeilene følger normalloven (tidligere er det nødvendig å bygge et histogram av resultatene av observasjoner) og teste hypotesen om at fordelingen tilhører normalloven. Ved bruk av kriteriet beregnes Dixon-koeffisienten (den observerte verdien av kriteriet) for å teste for største eller minste ekstremverdi avhengig av antall målinger. Tabell 4 viser formlene for beregning av koeffisientene. Odds r 10 , r 11 gjelder når det er én uteligger, og r 21 og r 22 - når det er to utkast. En første bestilling av måleresultatene (prøvestørrelse) er nødvendig. Kriteriet anvendes når utvalget kan inneholde mer enn én grov feil.

    Tabell 4 - Dixon koeffisientformler

    Verdiene til Dixon-koeffisientene beregnet for prøven ved hjelp av formlene r sammenlignet med den aksepterte (tabell)verdien til Dixon-kriteriet r q(tabell 5).

    Nullhypotesen om fravær av en grov feil er tilfredsstilt dersom ulikheten r< r q.

    Hvis en r> r q, så blir resultatet gjenkjent som en grov feil og

    utelukket fra videre behandling.

    Tabell 5 - Kriterieverdier for Dixon-koeffisientene (på akseptert nivå

    betydning q)

    Wright-kriterier. Tre sigma-regelen er en av de enkleste testene for resultater som overholder normalfordelingsloven. Essensen av tre sigma-regelen: hvis en tilfeldig variabel er normalfordelt, da absolutt verdi dens avvik fra den matematiske forventningen overstiger ikke tre ganger standardavviket.

    I praksis brukes tre-sigma-regelen som følger: hvis fordelingen av den tilfeldige variabelen som studeres er ukjent, men betingelsen spesifisert i regelen ovenfor er oppfylt, er det grunn til å anta at den studerte variabelen er normalfordelt; ellers er den ikke normalfordelt. For dette formålet, for utvalget (inkludert det mistenkelige resultatet), beregnes distribusjonssenteret og estimatet av standardavviket til observasjonsresultatet. Resultat som tilfredsstiller betingelsen

    ,

    anses å ha en grov feil og fjernes, og de tidligere beregnede fordelingskarakteristikkene foredles.

    Dette kriteriet er likt Wrights kriterium, basert på det faktum at hvis restfeilen er større enn fire sigma, så er dette måleresultatet en grov feil og bør utelukkes under videre behandling. Begge kriteriene er pålitelige når antall målinger er mer enn 20…50. Det er legitimt å bruke dem når verdien av det generelle standardavviket er kjent ( S).

    Det kan vise seg at for nye verdier og S andre resultater vil falle inn i den unormale kategorien.

    Smirnovs kriterium. Smirnov-kriteriet brukes for utvalgsstørrelser P≥ 25 eller kl kjente verdier generell sekundær og SKO. Det setter mindre stive grenser for grov feil. For å implementere dette kriteriet, beregnes de faktiske verdiene til distribusjonskvantilene (den observerte verdien av kriteriet) ved å bruke formelen:

    (8)

    Den funnet verdien sammenlignes med kriteriet β k gitt i tabell 6

    Tabell 6 - Fordelingskvantiler β k

    Chauvins kriterium. Chauvenet-kriteriet brukes for lover som ikke motsier den normale og er basert på å bestemme antall forventede resultater av observasjoner n kult, som har like store feil som den mistenkelige. Hypotesen om tilstedeværelsen av en grov feil aksepteres hvis følgende betingelse er oppfylt:

    Prosedyren for å teste hypotesen er som følger:

    1) det aritmetiske gjennomsnittet og standardavviket beregnes S observasjonsresultater for hele utvalget;

    2) fra tabellen over normalisert normalfordeling (vedlegg 1 - integralfunksjonen til normalisert normalfordeling) etter verdi

    sannsynligheten for et mistenkelig resultat i den generelle populasjonen av tall bestemmes n:

    (9)

    3) antall forventede resultater fl bestemmes av formelen:

    Kriteriene ovenfor viser seg i mange tilfeller å være "harde". Da anbefales det å bruke kriteriet om grov feil " k", avhengig av prøvestørrelsen P og akseptert tillitsnivå R.

    Tabell 7 - Avhengighet av kriteriet om grov feil k på prøvestørrelse P

    og konfidensnivå R

    For andre fordelinger enn normalen, klasser som to modale rund-vertex-sammensetninger av normal og diskret distribusjon med kurtosis e = 1,5 - 3,0; toppet bimodal; sammensetninger av en diskret toverdifordeling og en Laplace-fordeling med kurtosis e = 1,5 - 6,0; ensartede fordelingssammensetninger med eksponentiell kurtosisfordeling e = 1,8-6,0 og klassen av eksponentielle fordelinger innenfor endringen av kurtosis e = 1,8-6,0 grensen for grov feil bestemmes av verdien ± (t gr . σ ) eller ±( t gr . S), hvor:

    (11)

    hvor γ - motoverskudd;

    (12)

    Feil ved fastsettelse av estimater S Nord-Kasakhstan og t sp er negativt korrelert, dvs. en økning i standardavviket S ledsaget av en nedgang t zp. Derfor, fastsettelse av grensene for grov feil for andre lover enn normalt, med kurtosis ε < 6 ved å bruke kriteriet t zp er tilstrekkelig nøyaktig og kan brukes mye i praksis.

    Vurderinger, S og ε skal beregnes etter utelukkelse av mistenkelige resultater fra prøven. Etter å ha beregnet grensene for en grov feil, returneres resultatene av observasjoner som er innenfor grensene, og de tidligere funnet karakteristikkene til fordelingen foredles.

    For en jevn fordeling er det mulig å ta verdien ±1,8. S.

    Tenk på et eksempel anvendelse av kriterier for å eliminere grove feil ved måling av hastighet sjokkbølge. Resultatene er presentert i tabell 8.

    Tabell 8 - Resultater av observasjoner

    Det kreves å fastslå om resultatet av observasjonen inneholder V=3,50 km/s grov feil.

    Til grafisk definisjon form av distribusjonsloven, vil vi konstruere et histogram. Ved konstruksjon utføres inndelingen i intervaller på en slik måte at de målte verdiene viser seg å være midten av intervallene, som er vist i figur 2.

    Brukes til å vurdere tvilsomme prøveverdier for grove feil. Rekkefølgen for søknaden er som følger.

    Finn den beregnede verdien av kriteriet λ beregnet = (|x til - x til forrige |)/σ,

    hvor x k- tvilsom verdi x til forrige- den forrige verdien i variasjonsserien, hvis x k er estimert fra de maksimale verdiene for variasjonsserien, eller den neste, hvis x k er estimert fra minimumsverdiene til variasjonsserien (Irwin brukt i generell sak begrepet "første betydning"); σ er det generelle standardavviket (RMSD) til en kontinuerlig normalfordelt tilfeldig variabel.

    Hvis en λ beregnet > λ-fanen, x ktabbe. Her λ tabell- Tabellverdi (prosentpoeng) av Irwin-kriteriet.

    Spørsmålene som dukker opp i denne saken er beskrevet på siden. Spesielt i den originale artikkelen beregnes tabellverdiene til kriteriet for en normalfordelt tilfeldig variabel med et kjent generelt standardavvik (MSD) σ . Fordi det σ oftest ukjent, foreslo Irwin å bruke i beregninger i stedet for σ prøve standardavvik s bestemt av formelen

    hvor n er prøvestørrelsen, x i er elementene i prøven, x ons er middelverdien av prøven.

    Denne tilnærmingen brukes vanligvis i praksis. Akseptasjonen av å bruke et utvalg standardavvik, og dermed prosentpoeng for det generelle standardavviket, er imidlertid ikke bekreftet.

    Denne artikkelen presenterer tabellverdier (prosentpoeng) av Irwin-kriteriet, beregnet ved hjelp av metoden for statistisk datamaskinmodellering ved bruk av et utvalg standardavvik for maksimalverdien av variasjonsserien med en standard normalfordeling av en tilfeldig variabel (med andre parametere av en normalfordeling, samt for minimumsverdi variasjonsserier, oppnås de samme resultatene). For hver prøvestørrelse n simulerte 10 6 prøver. Som vist av foreløpige beregninger, parallelle definisjoner forskjeller i prosentpoengverdier kan være opptil 0,003. Siden verdiene ble rundet opp til 0,01, ble det i tvilsomme tilfeller utført 2 til 4 parallelle bestemmelser.

    I tillegg, ifølge dataene, ble tabellverdier for Irwin-kriteriet for den kjente generelle SD beregnet og sammenlignet med de gitt i .

    Siden kl praktisk anvendelse Irwins kriterium oppstår ofte visse vanskeligheter på grunn av mangel på litterære kilder tabellverdier av kriteriet for noen prøvestørrelser ble beregnet ved samme metode for statistisk datamaskinmodellering, noen av verdiene mangler fra tabellverdiene.

    Det er klart at med en prøvestørrelse på 2, gir det ikke mening å bruke testen ved å bruke prøvestandardavviket. Dette bekreftes av det faktum at forenklingen av uttrykket for den beregnede verdien av kriteriet med et prøvestandardavvik gir Kvadratrot av de to, noe som tydelig viser meningsløsheten i å anvende kriteriet med en prøvestørrelse på 2 og et prøvestandardavvik.

    Resultatene er vist i tabell. en.

    Tabell 1 - Tabellverdier for Irwin-kriteriet for ekstreme elementer variantserie.

    PrøvestørrelseI følge generalenVed selektivt standardavvik
    Signifikansnivå
    0,1 0,05 0,01 0,1 0,05 0,01
    2 2,33* 2,77* 3,64* - - -
    3 1,79* 2,17* 2,90* 1,62 1,68 1,72
    4 1,58 1,92 2,60 1,55 1,70 1,88
    5 1,45 1,77 2,43 1,45 1,64 1,93/
    6 1,37 1,67 2,30 1,38 1,60 1,94
    7 1,31 1,60 2,22 1,32 1,55 1,93
    8 1,26 1,55 2,14 1,27 1,51 1,92
    9 1,22 1,50 2,09 1,23 1,47 1,90
    10 1,18* 1,46* 2,04* 1,20 1,44 1,88
    11 1,15 1,43 2,00 1,17 1,42 1,87
    12 1,13 1,40 1,97 1,15 1,39 1,85
    13 1,11 1,38 1,94 1,13 1,37 1,83
    14 1,09 1,36 1,91 1,11 1,35 1,82
    15 1,08 1,34 1,89 1,09 1,33 1,80
    20 1,03* 1,27* 1,80* 1,03 1,27 1,75
    25 0,99 1,23 1,74 0,99 1,22 1,70
    30 0,96* 1,20* 1,70* 0,96 1,19 1,66
    35 0,93 1,17 1,66 0,94 1,16 1,63
    40 0,91* 1,15* 1,63* 0,92 1,14 1,61
    45 0,89 1,13 1,61 0,90 1,12 1,59
    50 0,88* 1,11* 1,59* 0,89 1,10 1,57
    60 0,86* 1,08* 1,56* 0,87 1,08 1,54
    70 0,84* 1,06* 1,53* 0,85 1,06 1,52
    80 0,83* 1,04* 1,51* 0,83 1,04 1,50
    90 0,82* 1,03* 1,49* 0,82 1,03 1,48
    100 0,81* 1,02* 1,47* 0,81 1,02 1,46
    200 0,75* 0,95* 1,38* 0,75 0,95 1,38
    300 0,72* 0,91* 1,33* 0,72 0,91 1,33
    500 0,69* 0,88* 1,28* 0,69 0,88 1,28
    1000 0,65* 0,83* 1,22* 0,65 0,83 1,22
    Merk: Verdiene merket med en stjerne beregnes ut fra dataene og justeres om nødvendig under den statistiske analysen. datasimulering. De resterende verdiene ble beregnet ved hjelp av statistiske datasimuleringer.

    Hvis vi sammenligner prosentpoengene for den kjente generelle RMS gitt i tabell. 1, med tilsvarende prosentpoeng gitt i , skiller de seg i flere tilfeller med 0,01, og i ett tilfelle med 0,02. Tilsynelatende er prosentpoengene gitt i denne artikkelen mer nøyaktige, siden de i tvilsomme tilfeller ble kontrollert ved statistisk datamodellering.

    Av tabell 1 kan man se at prosentpoengene til Irwin-kriteriet ved bruk av et utvalg standardavvik med relativt små utvalgsstørrelser skiller seg markant fra prosentpoengene ved bruk av det generelle standardavviket. Først ved signifikante utvalgsstørrelser, rundt 40, blir prosentpoengene nærme. Når du bruker Irwin-kriteriet, bør du derfor bruke prosentpoengene gitt i Tabell. 1, under hensyntagen til at den beregnede verdien av kriteriet ble oppnådd i henhold til det generelle eller prøvestandardavviket.

    LITTERATUR

    1. Irvin J.O. Om et kriterium for avvisning av utenforliggende observasjon //Biometrika.1925. V. 17. S. 238-250.

    2. Kobzar A.I. Anvendt matematikk statistikk. - M.: FIZMATLIT, 2006. - 816s. © V.V. Zalyazhnykh
    Når du bruker materialer, legg inn en lenke.