Korrelasjonskoeffisient i excel. Hvordan gjøres korrelasjon i Excel? Matrise av parvise korrelasjonskoeffisienter i Excel
Kvantitativ karakteristikk sammenhenger kan oppnås ved å beregne korrelasjonskoeffisienten.
Korrelasjonsanalyse i Excel
Funksjonen i seg selv har generell form CORREL(matrise1; matrise2). I feltet "Array1" skriver du inn koordinatene til celleområdet til en av verdiene, hvis avhengighet skal bestemmes. Som du kan se, vises korrelasjonskoeffisienten i form av et tall i cellen vi tidligere har valgt. Et vindu med korrelasjonsanalyseparametere åpnes. I motsetning til den forrige metoden, i "Input interval"-feltet, legger vi inn intervallet ikke for hver kolonne separat, men for alle kolonner som deltar i analysen. Som du kan se, tilbyr Excel-applikasjonen to metoder for korrelasjonsanalyse samtidig.
korrelasjonsdiagram i excel
6) Det første elementet i den endelige tabellen vil vises i cellen øverst til venstre i det valgte området. Derfor forkastes H0-hypotesen, det vil si at regresjonsparametrene og korrelasjonskoeffisienten ikke er tilfeldig forskjellige fra null, men er statistisk signifikante. 7. De oppnådde estimatene av regresjonsligningen lar oss bruke den til prognoser.
Hvordan beregne korrelasjonskoeffisient i Excel
Hvis koeffisienten er 0, indikerer dette at det ikke er noen sammenheng mellom verdiene. For å finne forholdet mellom variablene og y, bruk den innebygde funksjonen til Microsoft Excel "CORREL". For eksempel, for "Array1" velg y-verdiene, og for "Array2" velg x-verdiene. Som et resultat vil du få korrelasjonskoeffisienten beregnet av programmet. Deretter må du beregne forskjellen mellom hver x og xav, og yav. Skriv i de valgte cellene formler x-x, y-. Ikke glem å feste celler med gjennomsnittsverdier. Resultatet som oppnås vil være den ønskede korrelasjonskoeffisienten.
Formelen ovenfor for å beregne Pearson-koeffisienten viser hvor arbeidskrevende denne prosessen er hvis den gjøres manuelt. For det andre, vennligst anbefal hva slags korrelasjonsanalyse som kan brukes for forskjellige prøver med stor dataspredning? Hvordan kan jeg statistisk bevise forskjellen mellom gruppen over 60 og alle andre?
Gjør det selv: Beregne valutakorrelasjoner ved hjelp av Excel
Vi bruker for eksempel Microsoft Excel, men alle andre programmer som kan bruke korrelasjonsformelen vil gjøre det. 7. Etter det velger du cellene med data på EUR/USD. 9. Trykk Enter for å beregne korrelasjonskoeffisienten for EUR/USD og USD/JPY. Det er ikke verdt å oppdatere tallene hver dag (vel, med mindre du er besatt av valutakorrelasjoner).
Du har allerede støtt på behovet for å beregne graden av sammenheng mellom to statistikk og bestemme formelen som de korrelerer med? For å gjøre dette brukte jeg CORREL-funksjonen (CORREL) - det er litt informasjon om det her. Den returnerer graden av korrelasjon mellom to dataområder. Teoretisk kan korrelasjonsfunksjonen foredles ved å konvertere den fra lineær til eksponentiell eller logaritmisk. Analyse av data og korrelasjonsgrafer kan forbedre påliteligheten betydelig.
Anta at celle B2 inneholder selve korrelasjonskoeffisienten, celle B3 inneholder antall fullstendige observasjoner. Har du et russisktalende kontor Jeg fant forresten også en feil - betydningen er ikke beregnet for negative korrelasjoner. Hvis begge variablene er metriske og har normal distribusjon, da er valget riktig. Og er det mulig å karakterisere kriteriet for likhet til kurver ved å bruke bare en QC?Du har ikke likheten til "kurver", men likheten til to serier, som i prinsippet kan beskrives med en kurve.
Har du allerede støtt på behovet for å beregne graden av sammenheng mellom to statistiske størrelser og bestemme formelen som de korrelerer med? Normal person man kan spørre hvorfor dette i det hele tatt kan være nødvendig. Merkelig nok er dette virkelig nødvendig. Å kjenne pålitelige korrelasjoner kan hjelpe deg å tjene en formue hvis du for eksempel er en aksjehandler. Problemet er at av en eller annen grunn er det ingen som avslører disse korrelasjonene (overraskende, er det ikke?).
La oss telle dem selv! For eksempel bestemte jeg meg for å prøve å beregne korrelasjonen mellom rubelen mot dollaren gjennom euroen. La oss se hvordan dette gjøres i detalj.
Denne artikkelen er utviklet for et avansert nivå av kunnskap om Microsoft Excel. Hvis du ikke har tid til å lese hele artikkelen, kan du laste ned filen og håndtere den selv.
Hvis du ofte opplever at du trenger å gjøre noe slikt Jeg anbefaler på det sterkeste at du vurderer å kjøpe boken. Statistiske beregninger i Excel.
Hva er viktig å vite om sammenhenger
For å beregne en pålitelig korrelasjon er det nødvendig å ha et pålitelig utvalg, jo større det er, jo mer pålitelig vil resultatet være. For dette eksempelet har jeg tatt et daglig utvalg av valutakurser over 10 år. Dataene er fritt tilgjengelige, jeg tok dem fra nettstedet http://oanda.com.
Hva gjorde jeg egentlig
(1) Da jeg hadde mine originale data startet jeg med å sjekke graden av korrelasjon mellom de to datasettene. For å gjøre dette brukte jeg CORREL-funksjonen (CORREL) - det er lite informasjon om det. Den returnerer graden av korrelasjon mellom to dataområder. Resultatet var ærlig talt ikke spesielt imponerende (bare rundt 70%). Generelt anses graden av korrelasjon mellom to verdier å være kvadratet av denne verdien, det vil si at korrelasjonen viste seg å være pålitelig med omtrent 49%. Dette er veldig lite!
(2) Det virket veldig rart for meg. Hvilke feil kan ha sneket seg inn i mine beregninger? Så jeg bestemte meg for å lage en graf og se hva som kunne skje. Diagrammet ble holdt enkelt med vilje, brutt ned etter år, slik at du visuelt kan se hvor korrelasjonen bryter. Diagrammet ser slik ut
(3) Fra diagrammet er det åpenbart at i området rundt 35 rubler per euro, begynner korrelasjonen å bryte i to deler. På grunn av dette viste hun seg å være upålitelig. Det var nødvendig å fastslå i forbindelse med hva dette skjer.
(4) Farge viser at disse dataene refererer til 2007, 2008, 2009. Selvfølgelig! Perioder med økonomiske topper og lavkonjunkturer er vanligvis ikke statistisk pålitelige, noe som skjedde i denne saken. Derfor prøvde jeg å ekskludere disse periodene fra dataene (vel, for verifisering sjekket jeg graden av korrelasjon av dataene i denne perioden). Korrelasjonsgraden for kun disse dataene er 0,01%, det vil si at de er fraværende i prinsippet. Men uten dem korrelerer dataene med omtrent 81 %. Dette er allerede en ganske pålitelig korrelasjon. Her er en graf med en funksjon.
Neste skritt
Teoretisk kan korrelasjonsfunksjonen foredles ved å konvertere den fra lineær til eksponentiell eller logaritmisk. Hvori statistisk gyldighet korrelasjonen vokser med omtrent én prosent, men kompleksiteten ved å bruke formelen øker enormt. Derfor, for meg selv, stiller jeg spørsmålet: er det virkelig nødvendig? Du bestemmer - for hvert enkelt tilfelle.
Legge merke til! Løsningen på ditt spesifikke problem vil se lik ut dette eksemplet, inkludert alle tabeller og forklarende tekster nedenfor, men med tanke på dine første data ...En oppgave:
Det er et relatert utvalg av 26 par med verdier (x k , y k ):
k | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
x k | 25.20000 | 26.40000 | 26.00000 | 25.80000 | 24.90000 | 25.70000 | 25.70000 | 25.70000 | 26.10000 | 25.80000 |
y k | 30.80000 | 29.40000 | 30.20000 | 30.50000 | 31.40000 | 30.30000 | 30.40000 | 30.50000 | 29.90000 | 30.40000 |
k | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 |
x k | 25.90000 | 26.20000 | 25.60000 | 25.40000 | 26.60000 | 26.20000 | 26.00000 | 22.10000 | 25.90000 | 25.80000 |
y k | 30.30000 | 30.50000 | 30.60000 | 31.00000 | 29.60000 | 30.40000 | 30.70000 | 31.60000 | 30.50000 | 30.60000 |
k | 21 | 22 | 23 | 24 | 25 | 26 |
x k | 25.90000 | 26.30000 | 26.10000 | 26.00000 | 26.40000 | 25.80000 |
y k | 30.70000 | 30.10000 | 30.60000 | 30.50000 | 30.70000 | 30.80000 |
Det kreves for å beregne/bygge:
- korrelasjonskoeffisient;
- test hypotesen om avhengigheten av tilfeldige variabler X og Y, på et signifikansnivå α = 0,05;
- ligningskoeffisienter lineær regresjon;
- spredningsdiagram (korrelasjonsfelt) og regresjonslinjegraf;
LØSNING:
1. Regn ut korrelasjonskoeffisienten.
Korrelasjonskoeffisienten er en indikator på den gjensidige sannsynlige påvirkningen av to tilfeldige variabler. Korrelasjonskoeffisient R kan ta verdier fra -1 før +1 . Hvis den absolutte verdien er nærmere 1 , så er dette bevis sterk tilknytning mellom verdier, og hvis nærmere 0 - da indikerer dette en svak forbindelse eller fravær. Hvis den absolutte verdien R lik en, så kan vi snakke om en funksjonell sammenheng mellom mengder, det vil si at en størrelse kan uttrykkes i form av en annen ved hjelp av en matematisk funksjon.
Du kan beregne korrelasjonskoeffisienten ved å bruke følgende formler:
n |
Σ |
k = 1 |
Mx | = |
|
| x k, | M y | = | eller i henhold til formelen
I praksis brukes formel (1.4) oftere for å beregne korrelasjonskoeffisienten, siden det krever mindre beregning. Imidlertid, hvis kovariansen tidligere ble beregnet cov(X,Y), da er det mer fordelaktig å bruke formel (1.1), fordi i tillegg til den faktiske verdien av kovariansen, kan du også bruke resultatene av mellomberegninger. 1.1 Beregn korrelasjonskoeffisienten ved å bruke formelen (1.4), for dette beregner vi verdiene x k 2 , y k 2 og x k y k og legger dem inn i tabell 1. Tabell 1
1.2. Vi beregner M x med formel (1.5). 1.2.1. x k x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000 1.2.2. 669.50000 / 26 = 25.75000 M x = 25,750000 1.3. På samme måte beregner vi M y. 1.3.1. La oss legge til alle elementene i rekkefølge y k y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000 1.3.2. Del den resulterende summen med antall prøveelementer 793.00000 / 26 = 30.50000 M y = 30,500000 1.4. På samme måte beregner vi M xy. 1.4.1. Vi legger til sekvensielt alle elementene i den sjette kolonnen i tabell 1 776.16000 + 776.16000 + ... + 794.64000 = 20412.830000 1.4.2. Del den resulterende summen med antall elementer 20412.83000 / 26 = 785.10885 M xy = 785,108846 1.5. Beregn verdien av S x 2 ved å bruke formelen (1.6.). 1.5.1. Vi legger til sekvensielt alle elementene i den fjerde kolonnen i tabell 1 635.04000 + 696.96000 + ... + 665.64000 = 17256.910000 1.5.2. Del den resulterende summen med antall elementer 17256.91000 / 26 = 663.72731 1.5.3. Trekk fra det siste tallet kvadratet av verdien M x vi får verdien for S x 2 S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481 1.6. Beregn verdien av S y 2 med formelen (1.6.). 1.6.1. Vi legger til sekvensielt alle elementene i den femte kolonnen i tabell 1 948.64000 + 864.36000 + ... + 948.64000 = 24191.840000 1.6.2. Del den resulterende summen med antall elementer 24191.84000 / 26 = 930.45538 1.6.3. Trekk fra det siste tallet kvadratet av M y , vi får verdien for S y 2 S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538 1.7. La oss beregne produktet av S x 2 og S y 2. S x 2 S y 2 = 0,66481 0,20538 = 0,136541 1.8. Trekk ut det siste tallet Kvadratrot, får vi verdien S x S y. S x S y = 0,36951 1.9. Beregn verdien av korrelasjonskoeffisienten i henhold til formelen (1.4.). R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028 SVAR: Rx,y = -0,720279 2. Vi sjekker betydningen av korrelasjonskoeffisienten (vi sjekker avhengighetshypotesen).Siden estimatet av korrelasjonskoeffisienten beregnes på et begrenset utvalg, og derfor kan avvike fra dens generelle verdi, er det nødvendig å kontrollere betydningen av korrelasjonskoeffisienten. Kontrollen gjøres ved å bruke t-kriteriet:
Tilfeldig verdi t følger Elevens t-fordeling og i henhold til tabellen over t-fordeling er det nødvendig å finne den kritiske verdien av kriteriet (t cr.α) på et gitt signifikansnivå α . Hvis modulo t beregnet ved formel (2.1) viser seg å være mindre enn t cr.α , så vil avhengighetene mellom tilfeldige variabler X og Y er det ikke. Ellers motsier ikke de eksperimentelle dataene hypotesen om avhengigheten av tilfeldige variabler. 2.1. Beregn verdien av t-kriteriet i henhold til formelen (2.1) vi får:
2.2. La oss bestemme den kritiske verdien av parameteren t cr.α fra tabellen for t-fordeling Ønskeverdien t kr.α er plassert i skjæringspunktet mellom raden som tilsvarer antall frihetsgrader og kolonnen som tilsvarer et gitt signifikansnivå α . tabell 2 t-fordeling
2.2. La oss sammenligne den absolutte verdien av t-kriteriet og t cr.α Absolutt verdi t-kriteriet er ikke mindre enn kritisk t = 5,08680, tcr.α = 2,064, derfor eksperimentelle data, med en sannsynlighet på 0,95(1 - α ), ikke motsi hypotesen på avhengigheten av tilfeldige variabler X og Y. 3. Vi beregner koeffisientene til den lineære regresjonsligningen.Den lineære regresjonsligningen er en likning av en rett linje som tilnærmer (beskriver omtrent) forholdet mellom stokastiske variable X og Y. Hvis vi antar at X er fri og Y er avhengig av X, vil regresjonsligningen skrives som følger Y = a + b X (3.1), hvor:
Koeffisienten beregnet ved formel (3.2) b kalles den lineære regresjonskoeffisienten. I noen kilder en kalt konstant koeffisient regresjon og b i henhold til variablene. Prediksjonsfeil Y for en gitt verdi X beregnes ved hjelp av formlene: Verdien σ y/x (formel 3.4) kalles også gjenværende standardavvik, karakteriserer det avviket til Y fra regresjonslinjen beskrevet av ligning (3.1) ved en fast (gitt) verdi av X. | . |
S y / S x = 0,55582
3.3 Regn ut koeffisienten b etter formel (3.2)
b = -0.72028 0.55582 = -0.40035
3.4 Regn ut koeffisienten a etter formel (3.3)
en = 30.50000 - (-0.40035 25.75000) = 40.80894
3.5 Estimer feilene i regresjonsligningen.
3.5.1 Vi trekker ut kvadratroten fra S y 2 og får:
3.5.4 Beregn relativ feil etter formel (3.5)
δy/x = (0,31437 / 30,50000)100 % = 1,03073 %
4. Vi bygger et spredningsplott (korrelasjonsfelt) og en graf over regresjonslinjen.
Spredningsdiagrammet er grafisk bilde tilsvarende par (x k , y k ) i form av punkter i planet, i rektangulære koordinater med aksene X og Y. Korrelasjonsfeltet er ett av grafiske representasjoner koblet (paret) prøve. I samme koordinatsystem er også grafen til regresjonslinjen plottet. Skalaene og startpunktene på aksene bør velges med omhu slik at diagrammet er så tydelig som mulig.4.1. Vi finner at minimums- og maksimumselementet i prøven X er henholdsvis 18. og 15. element, x min = 22,10000 og x max = 26,60000.
4.2. Vi finner at minimums- og maksimumselementet i prøven Y er henholdsvis 2. og 18. element, y min = 29,40000 og y max = 31,60000.
4.3. På abscisseaksen velger vi startpunktet like til venstre for punktet x 18 = 22.10000, og en slik skala at punktet x 15 = 26.60000 passer på aksen og de andre punktene er tydelig atskilt.
4.4. På y-aksen velger vi startpunktet like til venstre for punktet y 2 = 29,40000, og en slik skala at punktet y 18 = 31,60000 passer på aksen og de andre punktene er tydelig atskilt.
4.5. På abscisseaksen plasserer vi verdiene x k , og på ordinataksen plasserer vi verdiene y k .
4.6. Vi setter poeng (x 1, y 1), (x 2, y 2), ..., (x 26, y 26 ) på koordinatplan. Vi får et spredningsdiagram (korrelasjonsfelt), vist i figuren under.
4.7. La oss tegne en regresjonslinje.
For å gjøre dette finner vi to ulike punkter med koordinater (x r1 , y r1) og (x r2 , y r2) som tilfredsstiller ligning (3.6), setter vi dem på koordinatplanet og tegner en linje gjennom dem. La oss ta x min = 22.10000 som abscissen til det første punktet. Vi erstatter verdien av x min i ligning (3.6), vi får ordinaten til det første punktet. Dermed har vi et punkt med koordinater (22.10000, 31.96127). På samme måte får vi koordinatene til det andre punktet, og setter verdien x max = 26,60000 som abscissen. Det andre punktet vil være: (26.60000, 30.15970).
Regresjonslinjen er vist i figuren under i rødt
Vær oppmerksom på at regresjonslinjen alltid går gjennom punktet for gjennomsnittsverdiene til X og Y, dvs. med koordinater (M x , M y).
LABORATORIEARBEID
KORELLASJONSANALYSE IUTMERKE
1.1 Korrelasjonsanalyse i MS Excel
Korrelasjonsanalyse består i å bestemme graden av sammenheng mellom to stokastiske variabler X og Y. Korrelasjonskoeffisienten brukes som mål på en slik sammenheng. Korrelasjonskoeffisienten er estimert fra et utvalg av volumet n av relaterte observasjonspar (xi, y i) fra den felles generelle befolkningen X og Y. For å vurdere graden av sammenheng mellom X og Y målt i kvantitative skalaer, bruker vi lineær korrelasjonskoeffisient(Pearsons koeffisient), forutsatt at prøvene X og Y er fordelt i henhold til normalloven.
Korrelasjonskoeffisienten varierer fra -1 (strengt inverst lineært forhold) til 1 (strengt direkte proporsjonalt forhold). Ved en verdi på 0 er det ingen lineær sammenheng mellom de to prøvene.
Generell klassifisering av korrelasjoner (ifølge Ivanter E.V., Korosov A.V., 1992):
Det finnes flere typer korrelasjonskoeffisienter, avhengig av X- og Y-variablene, som kan måles på forskjellige skalaer. Det er dette faktum som bestemmer valget av passende korrelasjonskoeffisient (se tabell 13):
I MS Excel brukes en spesiell funksjon for å beregne sammenkoblede lineære korrelasjonskoeffisienter CORREL(matrise1; matrise2),
№ forsøkspersoner | ||
Eksempel 1: 10 skoleelever fikk tester for visuelt-figurativ og verbal tenkning. Gjennomsnittlig tid for å løse testoppgaver ble målt i sekunder. Forskeren er interessert i spørsmålet: er det en sammenheng mellom tidspunktet for å løse disse problemene? Variabelen X angir gjennomsnittlig tid for å løse visuell-figurative tester, og variabelen Y angir gjennomsnittlig tid for å løse verbale oppgaver av tester.
R Løsning: For å identifisere graden av forhold, er det først og fremst nødvendig å legge inn data i MS Excel-tabellen (se tabell, fig. 1). Deretter beregnes verdien av korrelasjonskoeffisienten. For å gjøre dette, plasser markøren i celle C1. På verktøylinjen klikker du på Sett inn funksjon (fx).
Velg en kategori i funksjonsveiviser-dialogen som vises Statistisk og funksjon CORREL, og klikk deretter OK. Bruk musepekeren til å angi eksempeldataområdet X i array1-feltet (A1:A10). I array2-feltet skriver du inn eksempeldataområdet Y (B1:B10). Klikk OK. I celle C1 vil verdien av korrelasjonskoeffisienten vises - 0,54119. Deretter må du se på det absolutte tallet på korrelasjonskoeffisienten og bestemme typen forhold (nær, svak, middels, etc.)
Ris. 1. Resultater av beregning av korrelasjonskoeffisienten
Dermed er sammenhengen mellom tidspunktet for å løse visuelt-figurative og verbale oppgaver i testen ikke bevist.
Øvelse 1. Data er tilgjengelig for 20 jordbruksbedrifter. Finne korrelasjonskoeffisient mellom avlingene av kornavlinger og kvaliteten på landet og vurdere betydningen. Dataene er gitt i tabellen.
Tabell 2. Avhengighet av kornavling av jordkvalitet
husnummer |
Landkvalitet, poengsum |
Produktivitet, c/ha |
Oppgave 2. Bestem om det er et forhold mellom driftstiden til en treningsmaskin (tusen timer) og kostnadene for reparasjonen (tusen rubler):
Simulatordriftstid (tusen timer) |
Reparasjonskostnader (tusen rubler) |
1.2 Multippelkorrelasjon i MS Excel
På store tall observasjoner, når korrelasjonskoeffisientene må beregnes sekvensielt for flere prøver, for enkelhets skyld oppsummeres de resulterende koeffisientene i tabeller kalt korrelasjonsmatriser.
Korrelasjonsmatrise er en kvadratisk tabell der i skjæringspunktet mellom de tilsvarende radene og kolonnene er korrelasjonskoeffisienten mellom de tilsvarende parameterne.
I MS Excel brukes prosedyren for å beregne korrelasjonsmatriser sammenheng fra pakken Dataanalyse. Prosedyren gjør det mulig å oppnå en korrelasjonsmatrise som inneholder korrelasjonskoeffisienter mellom ulike parametere.
For å implementere prosedyren må du:
1. kjør kommando Service - Analyse data;
2. i listen som vises Analyseverktøy velg linje Sammenheng og trykk på knappen OK;
3. Angi i dialogboksen som vises inndataintervall, det vil si, angi en lenke til cellene som inneholder de analyserte dataene. Inndataintervallet må inneholde minst to kolonner.
4. seksjon gruppering still bryteren i henhold til de angitte dataene (etter kolonner eller rader);
5. angi fridag intervall, det vil si, angi en referanse til cellen, fra hvilken analyseresultatene vil vises. Størrelsen på utdataområdet vil bli bestemt automatisk, og en melding vil vises på skjermen hvis utdataområdet kan overlappe med kildedataene. Trykknapp OK.
En korrelasjonsmatrise vil vises i utgangsområdet, der det i skjæringspunktet mellom hver rad og kolonne er en korrelasjonskoeffisient mellom de tilsvarende parameterne. Celler i utdataområdet som har samme rad- og kolonnekoordinater inneholder verdien 1 fordi hver kolonne i inndataområdet er fullstendig korrelert med seg selv
Eksempel 2 Månedlige data er tilgjengelige for observasjoner av værforhold og besøk på museer og parker (se tabell 3). Det er nødvendig å avgjøre om det er en sammenheng mellom værtilstanden og besøket til museer og parker.
Tabell 3. Resultater av observasjoner
Antall klare dager |
Antall museumsbesøkende |
Antall besøkende i parken |
Løsning. For å utføre en korrelasjonsanalyse, skriv inn de første dataene i området A1:G3 (fig. 2). Så på menyen Service Velg en Analyse data og legg deretter til linjen Sammenheng. Skriv inn i dialogboksen som vises inndataintervall(A2:C7). Spesifiser at dataene vurderes av kolonner. Spesifiser utgangsområdet (E1) og trykk på knappen OK.
På fig. 33 kan man se at korrelasjonen mellom værforhold og museumsbesøk er -0,92, og mellom værforhold og parkbesøk - 0,97, mellom park- og museumsbesøk - 0,92.
Som et resultat av analysen ble det således avdekket avhengigheter: en sterk omvendt lineær sammenheng mellom museumsbesøk og antall soldager og en nesten lineær (veldig sterk direkte) sammenheng mellom parkoppmøte og værforhold. Det er et sterkt omvendt forhold mellom museum og parkoppmøte.
Ris. 2. Resultater av beregning av korrelasjonsmatrisen fra eksempel 2
Oppgave 3. 10 ledere ble evaluert i henhold til metodikken for ekspertvurderinger av de psykologiske egenskapene til lederens personlighet. 15 eksperter vurderte hver psykologisk egenskap i henhold til et fempunktssystem (se tabell 4). Psykologen er interessert i spørsmålet om hvilket forhold disse egenskapene til lederen er til hverandre.
Tabell 4. Resultater av studien
Emner p / s |
takt |
nøyaktighet |
kritikalitet |
Med en sammenheng samme verdi av ett attributt tilsvarer forskjellige verdier av det andre. For eksempel: det er en sammenheng mellom høyde og vekt, mellom forekomsten av ondartede neoplasmer og alder osv.
Det er 2 metoder for å beregne korrelasjonskoeffisienten: metoden for kvadrater (Pearson), metoden for rangeringer (Spearman).
Den mest nøyaktige er metoden med kvadrater (Pearson), der korrelasjonskoeffisienten bestemmes av formelen: , hvor
r xy er korrelasjonskoeffisienten mellom statistiske serier X og Y.
d x er avviket til hvert av tallene i den statistiske serien X fra dens aritmetiske gjennomsnitt.
d y er avviket til hvert av tallene i den statistiske serien Y fra dens aritmetiske gjennomsnitt.
Avhengig av styrken på forbindelsen og dens retning, kan korrelasjonskoeffisienten variere fra 0 til 1 (-1). En korrelasjonskoeffisient på 0 indikerer fullstendig mangel på forbindelse. Jo nærmere nivået av korrelasjonskoeffisienten er 1 eller (-1), jo større henholdsvis, jo nærmere direkte eller tilbakemelding målt av den. Med en korrelasjonskoeffisient lik 1 eller (-1), er forbindelsen komplett, funksjonell.
Skjema for å estimere styrken til korrelasjonen ved korrelasjonskoeffisienten
Styrke av forbindelse |
Verdien av korrelasjonskoeffisienten, hvis tilgjengelig |
|
direkte tilkobling (+) |
tilbakemelding (-) |
|
Ingen forbindelse | ||
Kommunikasjonen er liten (svak) |
fra 0 til +0,29 |
0 til -0,29 |
Kommunikasjonsgjennomsnitt (moderat) |
+0,3 til +0,69 |
-0,3 til -0,69 |
Kommunikasjon stor (sterk) |
+0,7 til +0,99 |
-0,7 til -0,99 |
Kommunikasjonen er fullført (funksjonell) |
For å beregne korrelasjonskoeffisienten ved å bruke kvadratmetoden, er det satt sammen en tabell med 7 kolonner. La oss analysere beregningsprosessen ved å bruke et eksempel:
BESTEM STYRKEN OG ARTEN AV FORHOLDET MELLOM
Det er på tide- ness struma (V y ) |
d x= V x –M x |
d y= V y –M y |
d x d y |
d x 2 |
d y 2 |
|
Σ -1345 ,0 |
Σ 13996 ,0 |
Σ 313 , 47 |
1. Bestem gjennomsnittlig innhold av jod i vann (i mg / l).
mg/l
2. Bestem gjennomsnittlig forekomst av struma i %.
3. Bestem avviket til hver V x fra M x, dvs. d x.
201–138=63; 178–138=40 osv.
4. Tilsvarende bestemmer vi avviket til hver V y fra M y, dvs. d
0,2–3,8=-3,6; 0,6–38=-3,2 osv.
5. Vi bestemmer produktene av avvik. Det resulterende produktet summeres og oppnås.
6. Vi kvadrat d x og oppsummerer resultatene, vi får.
7. På samme måte kvadrerer vi d y, oppsummerer resultatene, vi får
8. Til slutt erstatter vi alle mottatte beløp i formelen:
For å løse problemet med påliteligheten til korrelasjonskoeffisienten, bestemmes det gjennomsnittlig feil i henhold til formelen:
(Hvis antall observasjoner er mindre enn 30, så er nevneren n-1).
I vårt eksempel
Verdien av korrelasjonskoeffisienten anses som pålitelig hvis den er minst 3 ganger høyere enn gjennomsnittsfeilen.
I vårt eksempel
Korrelasjonskoeffisienten er dermed ikke pålitelig, noe som gjør det nødvendig å øke antall observasjoner.
Korrelasjonskoeffisienten kan bestemmes på en noe mindre nøyaktig, men mye enklere måte, rangeringsmetoden (Spearman).
Spearman-metoden: P=1-(6∑d 2 /n-(n 2 -1))
lag to rader med sammenliknede funksjoner, og angir henholdsvis første og andre rad, x og y. Presenter samtidig den første raden av attributtet i synkende eller stigende rekkefølge, og plasser de numeriske verdiene i den andre raden overfor verdiene i den første raden som de tilsvarer
verdien av funksjonen i hver av de sammenlignede radene bør erstattes av et serienummer (rangering). Rangeringer, eller tall, indikerer stedene for indikatorer (verdier) for den første og andre raden. Hvori numeriske verdier av det andre attributtet, må rangeringene tildeles i samme rekkefølge som ble vedtatt da de ble distribuert til verdiene til det første attributtet. Med de samme verdiene for attributtet i serien, bør rangeringene bestemmes som gjennomsnittstall fra summen av ordenstallene til disse verdiene
bestem forskjellen i rangeringer mellom x og y (d): d = x - y
kvadrat den resulterende rangeringsforskjellen (d 2)
få summen av kvadrater av forskjellen (Σ d 2) og bytt inn de oppnådde verdiene i formelen:
Eksempel: ved å bruke rangeringsmetoden for å fastslå retningen og styrken til forholdet mellom tjenestetiden i år og skadefrekvensen, hvis følgende data er innhentet:
Begrunnelse for valg av metode: for å løse problemet er det kun metoden som kan velges rangkorrelasjon, fordi den første raden i attributtet "arbeidserfaring i år" har åpne alternativer (yrkeserfaring opptil 1 år og 7 eller flere år), som ikke tillater bruk av en mer nøyaktig metode - metoden med kvadrater - for å etablere et forhold mellom sammenlignet egenskaper.
Løsning. Rekkefølgen av beregninger er beskrevet i teksten, resultatene er presentert i tabell. 2.
tabell 2
Arbeidserfaring i årevis |
Antall skader |
Ordningstall (ranger) |
Rangeringsforskjell |
rangeringsforskjell i annen |
|
d(x-y) |
d 2 |
||||
Hver av radene med sammenkoblede tegn er merket med "x" og med "y" (kolonne 1-2).
Verdien av hvert av tegnene erstattes av et rangeringsnummer (serienummer). Rekkefølgen for fordeling av rangeringer i "x"-serien er som følger: minimumsverdien av attributtet (erfaring opptil 1 år) tildeles serienummeret "1", henholdsvis de påfølgende variantene av samme serie av attributtet , i økende rekkefølge etter 2., 3., 4. og 5. serienummer - rekker (se kolonne 3). En lignende rekkefølge observeres når rangeringer fordeles til den andre funksjonen "y" (kolonne 4). I de tilfellene hvor det er flere varianter av samme størrelse (for eksempel i standardoppgaven er dette 12 og 12 skader per 100 arbeidere med erfaring på 3-4 år og 5-6 år), er serienummeret angitt ved gjennomsnittlig antall fra summen av deres serienumre Disse dataene om antall skader (12 skader) i rangeringen bør ta 2. og 3. plass, så gjennomsnittlig antall av dem er (2 + 3) / 2 = 2,5. ) skal fordele de samme rangeringsnumrene - "2.5" (kolonne 4).
Bestem forskjellen i rangeringer d = (x - y) - (kolonne 5)
Kvadrere forskjellen i ranger (d 2) og få summen av kvadrater av forskjellen i ranger Σ d 2 (kolonne 6).
Beregn rangkorrelasjonskoeffisienten ved å bruke formelen:
der n er antall matchede par med alternativer i rad "x" og rad "y"