Pålitelighet av statistiske dataformel. Begrepet statistisk signifikans

I dag er det egentlig for enkelt: du kan gå bort til en datamaskin og med liten eller ingen kunnskap om hva du gjør, skape fornuft og tull med virkelig utrolig hastighet. (J. Box)

Grunnleggende termer og begreper for medisinsk statistikk

I denne artikkelen presenterer vi noen av nøkkelbegrepene innen statistikk som er relevante i medisinsk forskning. Begrepene er nærmere omtalt i de aktuelle artiklene.

Variasjon

Definisjon. Graden av spredning av data (tegnverdier) over verdiområdet

Sannsynlighet

Definisjon. Sannsynlighet er i hvilken grad en bestemt hendelse kan inntreffe under visse forhold.

Eksempel. La oss forklare definisjonen av begrepet i setningen "Sannsynligheten for utvinning ved bruk av stoffet Arimidex er 70%". Hendelsen er "tilfriskning av pasienten", tilstanden "pasienten tar Arimidex", graden av mulighet er 70 % (grovt sett, av 100 personer som tar Arimidex, blir 70 friske).

Kumulativ sannsynlighet

Definisjon. Den kumulative sannsynligheten for å overleve på tidspunkt t er den samme som andelen pasienter som har overlevd på det tidspunktet.

Eksempel. Hvis det sies at den kumulative sannsynligheten for overlevelse etter et femårig behandlingsforløp er 0,7, betyr dette at av den betraktede pasientgruppen forble 70% av det opprinnelige antallet i live, og 30% døde. Med andre ord, av hver hundre mennesker døde 30 i løpet av de første 5 årene.

Tid til arrangement

Definisjon. Tid til hendelse - dette er tiden, uttrykt i noen enheter, som har gått fra et første tidspunkt til en hendelse inntreffer.

Forklaring. Tidsenhetene i medisinsk forskning er dager, måneder og år.

Typiske eksempler på starttider:

oppstart av pasientoppfølging

kirurgisk behandling

Typiske eksempler på betraktede hendelser:

sykdomsprogresjon

tilbakefall

pasientens død

Prøve

Definisjon. En del av en populasjon oppnådd ved seleksjon.

Basert på resultatene av prøveanalysen trekkes konklusjoner om hele populasjonen, som kun er gyldig dersom utvalget var tilfeldig. Siden tilfeldig utvalg fra en populasjon er praktisk talt umulig, bør man tilstrebe at utvalget minst er representativt for populasjonen.

Avhengige og uavhengige utvalg

Definisjon. Prøver der studieobjektene ble rekruttert uavhengig av hverandre. Et alternativ til uavhengige prøver er avhengige (sammenkoblede, sammenkoblede) prøver.

Hypotese

Bilaterale og unilaterale hypoteser

La oss først forklare bruken av begrepet hypotese i statistikk.

Målet med det meste av forskningen er å teste sannheten til et utsagn. Hensikten med medikamenttesting er oftest å teste hypotesen om at ett medikament er mer effektivt enn et annet (for eksempel er Arimidex mer effektivt enn Tamoxifen).

For å formidle strengheten til studien, uttrykkes påstanden som bekreftes matematisk. For eksempel, hvis A er antall år en pasient på Arimidex vil leve og T er antall år en pasient på Tamoxifen vil leve, kan hypotesen som skal testes skrives som A>T.

Definisjon. En hypotese kalles tosidig hvis den består i likheten mellom to størrelser.

Et eksempel på en tosidig hypotese: A=T.

Definisjon. En hypotese kalles ensidig (1-sidig) hvis den består i ulikheten mellom to størrelser.

Eksempler på ensidige hypoteser:

Dikotome (binære) data

Definisjon. Data uttrykt med bare to gyldige alternative verdier

Eksempel: Pasienten er "frisk" - "syk". Ødem "er" - "er ikke til stede".

Konfidensintervall

Definisjon. Konfidensintervallet for en viss mengde er området rundt verdien av kvantumet som inneholder den sanne verdien av den mengden (med et visst konfidensnivå).

Eksempel. La mengden som studeres være antall pasienter per år. I gjennomsnitt er tallet deres 500, og 95 % konfidensintervall er (350, 900). Dette betyr at mest sannsynlig (med en sannsynlighet på 95%), vil minst 350 og ikke mer enn 900 personer kontakte klinikken i løpet av året.

Betegnelse. En svært vanlig forkortelse er: 95 % KI (95 % KI) er et konfidensintervall med et konfidensnivå på 95 %.

Reliabilitet, statistisk signifikans (P - nivå)

Definisjon. Den statistiske signifikansen til et resultat er et mål på tillit til dets "sannhet".

Enhver forskning er kun basert på en del av objektene. Studiet av effektiviteten til et medikament utføres ikke på grunnlag av alle pasienter på planeten generelt, men bare på en viss gruppe pasienter (det er rett og slett umulig å utføre en analyse på grunnlag av alle pasienter).

La oss anta at en konklusjon ble gjort som et resultat av analysen (for eksempel er bruken av Arimidex som en adekvat terapi 2 ganger mer effektiv enn Tamoxifen).

Spørsmålet som må stilles er: "Hvor mye kan du stole på dette resultatet?".

Tenk deg at vi gjennomførte en studie basert på kun to pasienter. Selvfølgelig, i dette tilfellet, bør resultatene behandles med bekymring. Hvis et stort antall pasienter ble undersøkt (den numeriske verdien av "et stort antall" avhenger av situasjonen), kan konklusjonene som er trukket allerede stole på.

Så graden av tillit bestemmes av verdien av p-nivået (p-verdi).

Et høyere p-nivå tilsvarer en lavere grad av tillit til resultatene oppnådd fra analysen av prøven. For eksempel viser et p-nivå lik 0,05 (5%) at konklusjonen som ble gjort under analysen av en bestemt gruppe kun er et tilfeldig trekk ved disse objektene med en sannsynlighet på bare 5%.

Med andre ord, med svært høy sannsynlighet (95%) kan konklusjonen utvides til alle objekter.

I mange studier regnes 5 % som en akseptabel p-verdi. Dette betyr at hvis for eksempel p=0,01, så kan resultatene stoles på, men hvis p=0,06, så er det umulig.

Studere

prospektiv studie er en studie der prøver velges ut fra en innsatsfaktor, og noen resulterende faktor analyseres i prøvene.

Retrospektiv studie er en studie der prøver velges ut fra den resulterende faktoren, og noe innsatsfaktor analyseres i prøvene.

Eksempel. Den første faktoren er en gravid kvinne yngre/eldre enn 20 år. Den resulterende faktoren er at barnet er lettere/tyngre enn 2,5 kg. Vi analyserer om vekten til barnet avhenger av morens alder.

Hvis vi tar 2 prøver, en med mødre yngre enn 20 år, den andre med eldre, og deretter analyserer massen av barn i hver gruppe, så er dette en prospektiv studie.

Hvis vi samler 2 prøver, i den ene - mødre som fødte barn som er lettere enn 2,5 kg, i den andre - tyngre, og så analyserer vi alderen på mødre i hver gruppe, så er dette en retrospektiv studie (naturligvis en slik studie kan bare utføres når eksperimentet er fullført, dvs. alle barn er født).

Exodus

Definisjon. En klinisk signifikant hendelse, laboratorieverdi eller tegn som er av interesse for forskeren. I kliniske studier tjener utfall som kriterier for å evaluere effektiviteten av en terapeutisk eller profylaktisk intervensjon.

Klinisk epidemiologi

Definisjon. Vitenskapen som tillater prediksjon av et bestemt utfall for hver enkelt pasient basert på studiet av det kliniske forløpet av sykdommen i lignende tilfeller, ved å bruke strenge vitenskapelige metoder for å studere pasienter for å sikre nøyaktigheten av prognosene.

Kohort

Definisjon. En gruppe deltakere i en studie, forent av et eller annet fellestrekk på tidspunktet for dens dannelse og studert over lang tid.

Styre

Historisk kontroll

Definisjon. Kontrollgruppen ble dannet og undersøkt i perioden før studien.

Parallell kontroll

Definisjon. Kontrollgruppen, dannet samtidig med dannelsen av hovedgruppen.

Sammenheng

Definisjon. Statistisk sammenheng mellom to tegn (kvantitativ eller ordinal), som viser at en større verdi av ett tegn i en viss del av tilfellene tilsvarer en større - i tilfelle av en positiv (direkte) korrelasjon - verdien av et annet tegn eller en mindre verdi - ved negativ (invers) korrelasjon.

Eksempel. Det ble funnet en signifikant sammenheng mellom nivået av blodplater og leukocytter i pasientens blod. Korrelasjonskoeffisienten er 0,76.

Risikoforhold (CR)

Definisjon. Risikoforholdet (hazard ratio) er forholdet mellom sannsynligheten for en viss ("dårlig") hendelse for den første gruppen av objekter og sannsynligheten for at den samme hendelsen inntreffer for den andre gruppen objekter.

Eksempel. Hvis ikke-røykere har 20 % sjanse for å få lungekreft og 100 % sjanse for å få lungekreft hos røykere, vil CR være en femtedel. I dette eksemplet er den første gruppen av gjenstander ikke-røykere, den andre gruppen er røykere, og forekomsten av lungekreft anses som en "dårlig" hendelse.

Det er åpenbart at:

1) hvis КР=1, så er sannsynligheten for at hendelsen skjer i gruppene den samme

2) hvis КР>1, så skjer hendelsen oftere med objekter fra den første gruppen enn fra den andre

3) hvis CR<1, то событие чаще происходит с объектами из второй группы, чем из первой

Meta-analyse

Definisjon. FRA statistisk analyse som oppsummerer resultatene fra flere studier som undersøker det samme problemet (vanligvis effektiviteten til behandlingsmetoder, forebygging, diagnose). Sammenslåingsstudier gir et større utvalg for analyse og større statistisk kraft til sammenslåtte studier. Brukes for å øke bevisene eller tilliten til konklusjonen om studiemetodens effektivitet.

Kaplan-Meier-metoden (flere Kaplan-Meier-estimater)

Denne metoden ble oppfunnet av statistikerne E. L. Kaplan og Paul Meyer.

Metoden brukes til å beregne ulike mengder knyttet til observasjonstidspunktet for pasienten. Eksempler på slike verdier:

sjanse for bedring innen ett år ved bruk av stoffet

sjanse for tilbakefall etter operasjonen innen tre år etter operasjonen

kumulativ sannsynlighet for overlevelse ved fem år blant pasienter med prostatakreft etter organamputasjon

La oss forklare fordelene ved å bruke Kaplan-Meier-metoden.

Verdien av verdiene i den "normale" analysen (ikke ved bruk av Kaplan-Meier-metoden) beregnes på grunnlag av å dele det betraktede tidsintervallet i intervaller.

For eksempel, hvis vi undersøker sannsynligheten for død av en pasient innen 5 år, kan tidsintervallet deles inn i 5 deler (mindre enn 1 år, 1-2 år, 2-3 år, 3-4 år, 4- 5 år), så og 10 (et halvt år hver), eller et annet antall intervaller. Resultatene vil være forskjellige for forskjellige partisjoner.

Å velge den mest passende partisjonen er ikke en lett oppgave.

Estimater av verdiene av mengder oppnådd ved Kaplan-Meier-metoden avhenger ikke av oppdelingen av observasjonstiden i intervaller, men avhenger bare av levetiden til hver enkelt pasient.

Derfor er det lettere for forskeren å gjennomføre analysen, og resultatene viser seg ofte å være av høyere kvalitet enn resultatene fra den «vanlige» analysen.

Kaplan-Meier-kurven er en graf over overlevelseskurven oppnådd ved bruk av Kaplan-Meier-metoden.

Cox modell

Denne modellen ble oppfunnet av Sir David Roxby Cox (f. 1924), en berømt engelsk statistiker, forfatter av over 300 artikler og bøker.

Cox-modellen brukes i situasjoner der mengdene som studeres i overlevelsesanalysen avhenger av funksjoner av tid. For eksempel kan sannsynligheten for gjentakelse etter t år (t=1,2,...) avhenge av logaritmen til tidslog(t).

En viktig fordel med metoden foreslått av Cox er anvendeligheten av denne metoden i et stort antall situasjoner (modellen legger ikke strenge begrensninger på arten eller formen til sannsynlighetsfordelingen).

Med utgangspunkt i Cox-modellen kan det utføres en analyse (kalt en Cox-analyse), som resulterer i en risikoratioverdi og et konfidensintervall for risikoratio.

Ikke-parametriske metoder for statistikk

Definisjon. En klasse av statistiske metoder som brukes primært til analyse av ikke-normalfordelte kvantitative data, samt for analyse av kvalitative data.

Eksempel. For å identifisere betydningen av forskjeller i det systoliske trykket til pasienter avhengig av type behandling, vil vi bruke den ikke-parametriske Mann-Whitney-testen.

Funksjon (variabel)

Definisjon. X egenskaper ved studieobjektet (observasjon). Det er kvalitative og kvantitative egenskaper.

Randomisering

Definisjon. En metode for tilfeldig fordeling av forskningsobjekter i hoved- og kontrollgruppene ved bruk av spesielle midler (tabeller eller en tilfeldig tallteller, kasting av en mynt og andre metoder for tilfeldig å tildele et gruppenummer til en inkludert observasjon). Randomisering minimerer forskjeller mellom grupper når det gjelder kjente og ukjente egenskaper som potensielt kan påvirke utfallet som studeres.

Fare

Attributiv- ytterligere risiko for et ugunstig utfall (for eksempel en sykdom) på grunn av tilstedeværelsen av en viss karakteristikk (risikofaktor) i studieobjektet. Dette er den delen av risikoen for å utvikle en sykdom som er assosiert med denne risikofaktoren, forklares av den og kan elimineres dersom denne risikofaktoren elimineres.

Relativ risiko- forholdet mellom risikoen for en ugunstig tilstand i en gruppe og risikoen for denne tilstanden i en annen gruppe. Den brukes i prospektive og observasjonsstudier når grupper dannes på forhånd, og forekomsten av den studerte tilstanden ennå ikke har skjedd.

rullende eksamen

Definisjon. En metode for å kontrollere stabiliteten, reliabiliteten, ytelsen (validiteten) til en statistisk modell ved suksessivt å slette observasjoner og beregne modellen på nytt. Jo mer like de resulterende modellene er, desto mer stabil og pålitelig er modellen.

Begivenhet

Definisjon. Det kliniske resultatet observert i studien, som forekomst av komplikasjoner, tilbakefall, bedring, død.

Stratifisering

Definisjon. M en prøvetakingsmetode der en populasjon av alle deltakerne som oppfyller inklusjonskriteriene for en studie først deles inn i grupper (strata) basert på en eller flere egenskaper (vanligvis kjønn, alder) som potensielt kan påvirke utfallet under studien, og deretter fra hver av disse gruppene (stratum), deltakerne rekrutteres uavhengig inn i eksperimentelle og kontrollgruppene. Dette gjør at forskeren kan balansere viktige egenskaper mellom forsøks- og kontrollgruppen.

Beredskapstabell

Definisjon. En tabell med absolutte frekvenser (tall) av observasjoner, hvis kolonner tilsvarer verdiene til en funksjon, og radene til verdiene til en annen funksjon (i tilfelle av en todimensjonal beredskapstabell). Verdiene til absolutte frekvenser er plassert i celler i skjæringspunktet mellom rader og kolonner.

La oss gi et eksempel på en beredskapstabell. Aneurismeoperasjon ble utført hos 194 pasienter. En kjent indikator på alvorlighetsgraden av ødem hos pasienter før operasjon.

Ødem \ Utfall
ingen ødem	20	6	26
moderat hevelse	27	15	42
uttalt ødem	8	21	29
mj	55	42	194

Av 26 pasienter uten ødem overlevde således 20 pasienter etter operasjonen, 6 pasienter døde. Av 42 pasienter med moderat ødem overlevde 27 pasienter, 15 døde osv.

Chi-kvadrattest for beredskapstabeller

For å bestemme betydningen (pålitelighet) av forskjeller i ett tegn avhengig av et annet (for eksempel resultatet av en operasjon avhengig av alvorlighetsgraden av ødem), brukes en kjikvadrattest for beredskapstabeller:

Sjanse

La sannsynligheten for en hendelse være lik p. Da er sannsynligheten for at hendelsen ikke skal inntreffe 1-p.

For eksempel, hvis sannsynligheten for at pasienten fortsatt vil være i live etter fem år er 0,8 (80 %), så er sannsynligheten for at han dør i løpet av denne tidsperioden 0,2 (20 %).

Definisjon. Sjanse er forholdet mellom sannsynligheten for at en hendelse skal inntreffe og sannsynligheten for at hendelsen ikke vil inntreffe.

Eksempel. I vårt eksempel (om pasienten) er sjansen 4, siden 0,8/0,2=4

Dermed er sannsynligheten for bedring 4 ganger sannsynligheten for død.

Tolkning av verdien av en mengde.

1) Hvis Chance=1, så er sannsynligheten for at hendelsen inntreffer lik sannsynligheten for at hendelsen ikke vil inntreffe;

2) hvis sjanse >1, så er sannsynligheten for at hendelsen inntreffer større enn sannsynligheten for at hendelsen ikke vil inntreffe;

3) hvis sjanse<1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

oddsforhold

Definisjon. Oddsforholdet er forholdet mellom oddsen for den første gruppen av objekter og oddsforholdet for den andre gruppen objekter.

Eksempel. La oss anta at både menn og kvinner gjennomgår en viss behandling.

Sannsynligheten for at en mannlig pasient fortsatt vil være i live etter fem år er 0,6 (60 %); sannsynligheten for at han dør i løpet av denne tidsperioden er 0,4 (40%).

Lignende sannsynligheter for kvinner er 0,8 og 0,2.

Oddsforholdet i dette eksemplet er

Tolkning av verdien av en mengde.

1) Hvis oddsforholdet = 1, er sjansen for den første gruppen lik sjansen for den andre gruppen

2) Hvis oddsforholdet er >1, er sjansen for den første gruppen større enn sjansen for den andre gruppen

3) Hvis oddsforholdet<1, то шанс для первой группы меньше шанса для второй группы

Tenk på et typisk eksempel på anvendelse av statistiske metoder i medisin. Skaperne av stoffet antyder at det øker diuresen i forhold til dosen som tas. For å teste denne antagelsen gir de fem frivillige forskjellige doser av stoffet.

I henhold til resultatene av observasjoner er et plott av diurese versus dose plottet (fig. 1.2A). Avhengighet er synlig for det blotte øye. Forskerne gratulerer hverandre med funnet, og verden med det nye vanndrivende middelet.

Dataene tillater oss faktisk bare å si at avhengigheten av diurese av dosen ble observert hos disse fem frivillige. Det faktum at denne avhengigheten vil manifestere seg hos alle mennesker som vil ta stoffet, er ikke mer enn en gjetning.
WJ

Med

zhenie. Det kan ikke sies at det er grunnløst - ellers, hvorfor eksperimentere?

Men nå er stoffet på markedet. Flere og flere tar det i håp om å øke diuresen. Og hva ser vi? Vi ser fig. 1.2B, som indikerer fravær av noen sammenheng mellom dosen av medikamentet og diurese. De svarte sirklene representerer data fra den opprinnelige studien. Statistikk har metoder for å estimere sannsynligheten for å få et slikt "urepresentativt", dessuten forvirrende utvalg. Det viser seg at i fravær av et forhold mellom diurese og dosen av stoffet, vil den resulterende "avhengigheten" bli observert i omtrent 5 av 1000 eksperimenter. Så i dette tilfellet var forskerne rett og slett uheldige. Selv om de brukte selv de mest perfekte statistiske metodene, ville det fortsatt ikke redde dem fra feil.

Dette fiktive, men ikke i det hele tatt virkelighetsfjern eksempel, nevnte vi ikke for å påpeke unyttigheten
statistikk. Han snakker om noe annet, om den sannsynlige karakteren av konklusjonene hennes. Som et resultat av å anvende den statistiske metoden får vi ikke den ultimate sannheten, men bare et estimat av sannsynligheten for en bestemt antagelse. I tillegg er hver statistisk metode basert på sin egen matematiske modell og resultatene er korrekte i den grad denne modellen samsvarer med virkeligheten.

Mer om PÅLITELIGHET OG STATISTISK SIGNIFIKANS:

Statistisk signifikante forskjeller i livskvalitetsindikatorer
Statistisk aggregat. Konto tegn. Konseptet med kontinuerlig og selektiv forskning. Krav til statistikkpopulasjonen og bruk av regnskaps- og rapporteringsdokumenter
ESSAY. STUDIE AV PÅLITELIGHETEN TIL TONOMETERAVLESNINGER FOR MÅLING AV INTRAOKULÆRT TRYKK GJENNOM ØYELIDET2018, 2018

I enhver vitenskapelig og praktisk situasjon av et eksperiment (undersøkelse), kan forskere ikke studere alle mennesker (generell befolkning, befolkning), men bare et bestemt utvalg. For eksempel, selv om vi undersøker en relativt liten gruppe mennesker, for eksempel de med en bestemt sykdom, er det høyst usannsynlig at vi har ressursene eller behovet for å teste hver pasient. I stedet blir et utvalg av befolkningen vanligvis testet fordi det er mer praktisk og tar kortere tid. Hvordan vet vi i så fall at resultatene fra utvalget representerer hele gruppen? Eller, for å bruke fagterminologi, kan vi være sikre på at studien vår beskriver helheten korrekt befolkning, prøven vi brukte fra?

For å svare på dette spørsmålet er det nødvendig å bestemme den statistiske signifikansen av testresultatene. Statistisk signifikant (Betydende nivå, forkortet Sig.), eller /7-signifikansnivå (p nivå) - er sannsynligheten for at et gitt resultat riktig representerer populasjonen som utvalget ble studert fra. Merk at dette kun er sannsynlighet- Det er umulig å si med absolutt sikkerhet at denne studien beskriver hele befolkningen korrekt. I beste fall kan man bare konkludere ut fra signifikansnivået at dette er høyst sannsynlig. Følgende spørsmål oppstår derfor uunngåelig: hva bør betydningsnivået være for å betrakte dette resultatet som en korrekt karakterisering av befolkningen?

For eksempel, med hvilken verdi av sannsynlighet er du villig til å si at slike odds er nok til å ta en risiko? Hvis sjansene er 10 av 100 eller 50 av 100? Men hva om denne sannsynligheten er høyere? Hva med odds som 90 av 100, 95 av 100 eller 98 av 100? For en situasjon forbundet med risiko er dette valget ganske problematisk, fordi det avhenger av de personlige egenskapene til en person.

I psykologi er det tradisjonelt antatt at en sjanse på 95 eller mer av 100 betyr at sannsynligheten for riktigheten av resultatene er høy nok til å generaliseres til hele befolkningen. Denne figuren ble etablert i prosessen med vitenskapelig og praktisk aktivitet - det er ingen lov i henhold til hvilken den skal velges som en retningslinje (og faktisk, i andre vitenskaper velges noen ganger andre verdier av betydningsnivået).

I psykologien håndteres denne sannsynligheten på en noe uvanlig måte. I stedet for sannsynligheten for at utvalget representerer en populasjon, er sannsynligheten for at utvalget er det representerer ikke befolkning. Det er med andre ord sannsynligheten for at den oppdagede sammenhengen eller forskjellene er tilfeldige og ikke en egenskap for befolkningen. I stedet for å si at resultatene av en studie er korrekte med en sannsynlighet på 95 av 100, sier psykologer at det er en 5 av 100 sjanse for at resultatene er feil (tilsvarende 40 av 100 sjanser til fordel for riktigheten av resultatene betyr 60 av 100 sjanser til fordel for feilen deres). Sannsynlighetsverdien uttrykkes noen ganger i prosent, men oftere skrives den som en desimalbrøk. For eksempel er 10 sjanser av 100 representert som en desimalbrøk på 0,1; 5 av 100 skrives som 0,05; 1 av 100 - 0,01. Med denne formen for registrering er grenseverdien 0,05. For at et resultat skal anses som riktig, må dets signifikansnivå være det under dette tallet (husk at dette er sannsynligheten for at resultatet ikke ordentlig beskriver befolkningen. For å gjøre unna terminologien legger vi til at "sannsynligheten for feil resultat" (som mer korrekt kalles Signifikansnivå) vanligvis betegnet med den latinske bokstaven R. Beskrivelsen av resultatene av eksperimentet inkluderer vanligvis en oppsummerende konklusjon, for eksempel "resultatene var signifikante på signifikansnivået (R(p) mindre enn 0,05 (dvs. mindre enn 5%).

Dermed er signifikansnivået ( R) indikerer sannsynligheten for at resultatene ikke representere befolkningen. Av tradisjon i psykologi, er det antatt at resultatene pålitelig gjenspeiler det totale bildet, hvis verdien R mindre enn 0,05 (dvs. 5%). Dette er imidlertid kun en sannsynlighetserklæring, og slett ikke en ubetinget garanti. I noen tilfeller kan denne konklusjonen være feil. Faktisk kan vi beregne hvor ofte dette kan skje hvis vi ser på størrelsen på signifikansnivået. Ved et signifikansnivå på 0,05, i 5 av 100 tilfeller, er resultatene sannsynligvis feil. 11a ved første øyekast ser det ut til at dette ikke er for ofte, men hvis du tenker på det, så er 5 sjanser av 100 det samme som 1 av 20. Med andre ord, i ett av 20 tilfeller vil resultatet snu. ute å ta feil. Slike odds virker ikke spesielt gunstige, og forskere bør vokte seg for å binde seg feil av den første typen. Dette er navnet på feilen som oppstår når forskere tror de har funnet reelle resultater, men det er faktisk ingen. De motsatte feilene, som består i at forskere mener at de ikke har funnet et resultat, men faktisk er det, kalles feil av den andre typen.

Disse feilene oppstår fordi muligheten for feil statistisk analyse ikke kan utelukkes. Sannsynligheten for feil avhenger av nivået av statistisk signifikans av resultatene. Vi har allerede merket at for at resultatet skal anses som riktig, må signifikansnivået være under 0,05. Selvfølgelig er noen resultater lavere, og det er ikke uvanlig å finne resultater så lave som 0,001 (en verdi på 0,001 indikerer en 1 av 1000 sjanse for å ta feil). Jo mindre p-verdien er, desto sterkere er vår tillit til riktigheten av resultatene.

I tabellen. 7.2 viser den tradisjonelle tolkningen av signifikansnivåer om muligheten for statistisk slutning og begrunnelse av beslutningen om tilstedeværelse av en sammenheng (forskjeller).

Tabell 7.2

Tradisjonell tolkning av betydningsnivåer brukt i psykologi

Basert på erfaringene fra praktisk forskning, anbefales det at for å unngå feil av den første og andre typen, når man trekker ansvarlige konklusjoner, bør det tas beslutninger om tilstedeværelsen av forskjeller (forbindelser), med fokus på nivået. R n tegn.

Statistisk test(Statistisk test - det er et verktøy for å bestemme nivået av statistisk signifikans. Dette er en beslutningsregel som sikrer at en sann hypotese blir akseptert og en falsk forkastet med stor sannsynlighet.

Statistiske kriterier indikerer også metoden for å beregne et visst tall og dette tallet selv. Alle kriterier brukes med ett hovedmål: å bestemme Signifikansnivå dataene de analyserer (dvs. sannsynligheten for at dataene gjenspeiler den sanne effekten som korrekt representerer populasjonen utvalget ble trukket fra).

Noen kriterier kan kun brukes for normalfordelte data (og hvis funksjonen er målt på en intervallskala) - disse kriteriene kalles vanligvis parametrisk. Ved hjelp av andre kriterier kan du analysere data med nesten hvilken som helst distribusjonslov – de kalles ikke-parametrisk.

Parametriske kriterier - kriterier som inkluderer fordelingsparametere i beregningsformelen, dvs. midler og varianser (Studentens t-test, Fishers F-test osv.).

Ikke-parametriske kriterier - kriterier som ikke inkluderer distribusjonsparametere i formelen for beregning av distribusjoner og er basert på driftsfrekvenser eller rangeringer (kriterium Q Rosenbaum, kriterium U Manna - Whitney

Når vi for eksempel sier at betydningen av forskjeller ble bestemt av Students t-test, mener vi at Students t-testmetode ble brukt for å beregne den empiriske verdien, som så sammenlignes med den tabellformede (kritiske) verdien.

I henhold til forholdet mellom de empiriske (vi beregnet) og kritiske verdier for kriteriet (tabellen), kan vi bedømme om hypotesen vår er bekreftet eller tilbakevist. I de fleste tilfeller, for at vi skal anerkjenne forskjellene som signifikante, er det nødvendig at den empiriske verdien av kriteriet overstiger det kritiske, selv om det er kriterier (for eksempel Mann-Whitney-testen eller tegntesten) der vi må følge den motsatte regelen.

I noen tilfeller inkluderer beregningsformelen for kriteriet antall observasjoner i studieutvalget, betegnet som P. Ved hjelp av en spesiell tabell bestemmer vi hvilket nivå av statistisk signifikans av forskjeller som tilsvarer en gitt empirisk verdi. I de fleste tilfeller kan den samme empiriske verdien av kriteriet vise seg å være signifikant eller ubetydelig, avhengig av antall observasjoner i studieutvalget ( P ) eller fra den såkalte antall frihetsgrader , som er betegnet som v (g>) eller begge deler df (noen ganger d).

Å vite P eller antall frihetsgrader, kan vi bruke spesielle tabeller (de viktigste er gitt i vedlegg 5) for å bestemme de kritiske verdiene for kriteriet og sammenligne den oppnådde empiriske verdien med dem. Det skrives vanligvis slik: n = 22 kritiske verdier av kriteriet er tSt = 2.07" eller "kl v (d) = 2, de kritiske verdiene for Studentens kriterium er = 4,30 "og den såkalte.

Vanligvis blir imidlertid parametriske kriterier foretrukket, og vi forholder oss til denne posisjonen. De anses å være mer pålitelige og kan gi mer informasjon og dypere analyse. Når det gjelder kompleksiteten til matematiske beregninger, forsvinner denne kompleksiteten ved bruk av dataprogrammer (men noen andre ser imidlertid ut til å være ganske overkommelige).

I denne læreboken behandler vi ikke problemet med statistikk i detalj
hypoteser (null - R0 og alternativ - Hj) og statistiske avgjørelser, siden psykologistudenter studerer dette separat i faget "Matematiske metoder i psykologi". I tillegg skal det bemerkes at ved utarbeidelse av en forskningsrapport (semesteroppgave eller oppgave, publisering) gis det som regel ikke statistiske hypoteser og statistiske løsninger. Vanligvis, når resultatene beskrives, angis et kriterium, den nødvendige beskrivende statistikken er gitt (midler, sigma, korrelasjonskoeffisienter, etc.), empiriske verdier av kriteriene, frihetsgrader og nødvendigvis p-signifikansnivået. Deretter formuleres en meningsfull konklusjon i forhold til hypotesen som testes, som indikerer (vanligvis i form av ulikhet) hvilket signifikansnivå som er oppnådd eller ikke oppnådd.

PÅLITELIGHET STATISTISK

- Engelsk troverdighet/validitet, statistisk; tysk Validitat, statistisk. Konsistens, objektivitet og mangel på tvetydighet i en statistisk test eller i C.L. sett med målinger. D. s. kan testes ved å gjenta den samme testen (eller spørreskjemaet) på samme emne for å se om de samme resultatene oppnås; eller ved å sammenligne ulike deler av testen som skal måle samme objekt.

Antinazi. Encyclopedia of Sociology, 2009

Se hva "STATISTISK PÅLITELIGHET" er i andre ordbøker:

PÅLITELIGHET STATISTISK- Engelsk. troverdighet/validitet, statistisk; tysk Validitat, statistisk. Konsistens, objektivitet og mangel på tvetydighet i en statistisk test eller i en s. sett med målinger. D. s. kan verifiseres ved å gjenta den samme testen (eller ... ... Forklarende sosiologiordbok

I statistikk kalles en verdi statistisk signifikant hvis sannsynligheten for at den oppstår ved en tilfeldighet eller enda mer ekstreme verdier er liten. Her forstås det ekstreme som graden av avvik for teststatistikken fra nullhypotesen. Forskjellen kalles ... ... Wikipedia

Det fysiske fenomenet med statistisk stabilitet er at med en økning i utvalgsstørrelsen, tenderer frekvensen av en tilfeldig hendelse eller gjennomsnittsverdien av en fysisk mengde til et fast tall. Fenomenet statistisk ... ... Wikipedia

FORSKJELLENS PÅLITELIGHET (likhet)- analytisk og statistisk prosedyre for å fastslå signifikansnivået til forskjeller eller likheter mellom prøver i henhold til de studerte indikatorene (variablene) ... Moderne utdanningsprosess: grunnleggende begreper og termer

RAPPORTERING, STATISTISK Stor regnskapsordbok

RAPPORTERING, STATISTISK- en form for statlig statistisk observasjon, der relevante myndigheter mottar fra virksomheter (organisasjoner og institusjoner) informasjonen de trenger i form av lovbestemte rapporteringsdokumenter (statistiske rapporter) for ... Stor økonomisk ordbok

En vitenskap som studerer metodene for systematisk observasjon av massefenomener i menneskets sosiale liv, sammenstillingen av deres numeriske beskrivelser og den vitenskapelige behandlingen av disse beskrivelsene. Dermed er teoretisk statistikk en vitenskap ... ... Encyclopedic Dictionary F.A. Brockhaus og I.A. Efron

Korrelasjonskoeffisient- (Korrelasjonskoeffisient) Korrelasjonskoeffisienten er en statistisk indikator på avhengigheten av to tilfeldige variabler Definisjon av korrelasjonskoeffisienten, typer korrelasjonskoeffisienter, egenskaper til korrelasjonskoeffisienten, beregning og anvendelse ... ... Encyclopedia of investor

Statistikk- (Statistikk) Statistikk er en generell teoretisk vitenskap som studerer kvantitative endringer i fenomener og prosesser. Statsstatistikk, statistikktjenester, Rosstat (Goskomstat), statistiske data, forespørselsstatistikk, salgsstatistikk, ... ... Encyclopedia of investor

Sammenheng- (Korrelasjon) Korrelasjon er et statistisk forhold mellom to eller flere tilfeldige variabler Konseptet med korrelasjon, typer korrelasjon, korrelasjonskoeffisient, korrelasjonsanalyse, priskorrelasjon, korrelasjon av valutapar på Forex-innhold ... ... Encyclopedia of investor

Bøker

Research in Mathematics and Mathematics in Research: A Methodological Collection on Research Activities of Students, Borzenko V.I. Samlingen presenterer metodologisk utvikling som kan brukes i organiseringen av forskningsaktiviteter til studenter. Den første delen av samlingen er viet anvendelsen av forskningstilnærmingen i...

Begrepet statistisk signifikans

Statistisk gyldighet er avgjørende i beregningspraksisen til FCC. Det ble bemerket tidligere at mange prøver kan velges fra samme populasjon:

Hvis de er valgt riktig, avviker deres gjennomsnittlige indikatorer og indikatorer for den generelle befolkningen litt fra hverandre i størrelsen på representativitetsfeilen, tatt i betraktning den aksepterte påliteligheten;

Hvis de velges fra ulike generelle populasjoner, viser forskjellen seg å være betydelig. Sammenligning av utvalg er ofte vurdert i statistikk;

Hvis de skiller seg ubetydelig, uviktig, ubetydelig, det vil si at de faktisk tilhører den samme generelle befolkningen, kalles forskjellen mellom dem statistisk upålitelig.

Statistisk signifikant en utvalgsforskjell er et utvalg som skiller seg vesentlig og fundamentalt, dvs. tilhører forskjellige generelle populasjoner.

I FCC betyr å vurdere den statistiske signifikansen av prøveforskjeller å løse mange praktiske problemer. For eksempel er introduksjonen av nye undervisningsmetoder, programmer, sett med øvelser, tester, kontrolløvelser forbundet med deres eksperimentelle verifisering, som skal vise at testgruppen er fundamentalt forskjellig fra kontrollgruppen. Derfor brukes spesielle statistiske metoder, kalt kriterier for statistisk signifikans, som gjør det mulig å oppdage tilstedeværelsen eller fraværet av en statistisk signifikant forskjell mellom prøvene.

Alle kriterier er delt inn i to grupper: parametriske og ikke-parametriske. Parametriske kriterier sørge for obligatorisk tilstedeværelse av en normalfordelingslov, dvs. dette refererer til den obligatoriske bestemmelsen av hovedindikatorene for normalloven - det aritmetiske gjennomsnittet X og standardavvik ca. Parametriske kriterier er de mest nøyaktige og korrekte. Ikke-parametriske tester er basert på rang (ordinære) forskjeller mellom elementene i prøvene.

Her er de viktigste statistiske signifikanskriteriene som brukes i praktiseringen av FCC: Students test, Fishers test, Wilcoxons test, Whites test, Van der Waerdens test (tegntest).

Elevens kriterium oppkalt etter den engelske vitenskapsmannen C. Gosset (Student er et pseudonym), som oppdaget denne metoden. Studentens kriterium er parametrisk, brukes til å sammenligne de absolutte verdiene til prøvene. Prøver kan variere i størrelse.

Elevens kriterium er definert som følger.

1. Finn Elevens kriterium t i henhold til følgende formel:

hvor xi, x 2 - aritmetisk gjennomsnitt av sammenlignede prøver; /i b w 2 - representativitetsfeil identifisert på grunnlag av indikatorene for de sammenlignede utvalgene.

2. Praksis i FCC har vist at for sportsarbeid er det nok å akseptere påliteligheten til poengsummen R= 0,95.

63 For kontopålitelighet: P= 0,95 (a = 0,05), med antall grader; frihet k= «! + n 2 - 2 i henhold til tabellen for anvendelse 4 finner vi verdien \ vel, grenseverdien til kriteriet (^gr).

3. Med utgangspunkt i normalfordelingslovens egenskaper foretas en sammenligning i Studentens prøve t og t^.

4. Trekk konklusjoner:

Hvis en t> ftp, da er forskjellen mellom de sammenlignede prøvene statistisk signifikant;

Hvis en t< 7 F, så er ikke forskjellen statistisk signifikant.

For forskere innen FCC-feltet er vurderingen av statistisk signifikans det første trinnet i å løse et spesifikt problem: fundamentalt eller ikke-fundamentalt forskjellig mellom; sammenlignbare prøver. Neste steg er; vurdering av denne forskjellen fra et pedagogisk synspunkt, som bestemmes av problemets tilstand.