Biografier Kjennetegn Analyse

Korrelasjonskoeffisient i excel. Hvordan gjøres korrelasjon i Excel? Matrise av parvise korrelasjonskoeffisienter i Excel

Kvantitativ karakteristikk sammenhenger kan oppnås ved å beregne korrelasjonskoeffisienten.

Korrelasjonsanalyse i Excel

Funksjonen i seg selv har generell form CORREL(matrise1; matrise2). I feltet "Array1" skriver du inn koordinatene til celleområdet til en av verdiene, hvis avhengighet skal bestemmes. Som du kan se, vises korrelasjonskoeffisienten i form av et tall i cellen vi tidligere har valgt. Et vindu med korrelasjonsanalyseparametere åpnes. I motsetning til den forrige metoden, i "Input interval"-feltet, legger vi inn intervallet ikke for hver kolonne separat, men for alle kolonner som deltar i analysen. Som du kan se, tilbyr Excel-applikasjonen to metoder for korrelasjonsanalyse samtidig.

korrelasjonsdiagram i excel

6) Det første elementet i den endelige tabellen vil vises i cellen øverst til venstre i det valgte området. Derfor forkastes H0-hypotesen, det vil si at regresjonsparametrene og korrelasjonskoeffisienten ikke er tilfeldig forskjellige fra null, men er statistisk signifikante. 7. De oppnådde estimatene av regresjonsligningen lar oss bruke den til prognoser.

Hvordan beregne korrelasjonskoeffisient i Excel

Hvis koeffisienten er 0, indikerer dette at det ikke er noen sammenheng mellom verdiene. For å finne forholdet mellom variablene og y, bruk den innebygde funksjonen til Microsoft Excel "CORREL". For eksempel, for "Array1" velg y-verdiene, og for "Array2" velg x-verdiene. Som et resultat vil du få korrelasjonskoeffisienten beregnet av programmet. Deretter må du beregne forskjellen mellom hver x og xav, og yav. Skriv i de valgte cellene formler x-x, y-. Ikke glem å feste celler med gjennomsnittsverdier. Resultatet som oppnås vil være den ønskede korrelasjonskoeffisienten.

Formelen ovenfor for å beregne Pearson-koeffisienten viser hvor arbeidskrevende denne prosessen er hvis den gjøres manuelt. For det andre, vennligst anbefal hva slags korrelasjonsanalyse som kan brukes for forskjellige prøver med stor dataspredning? Hvordan kan jeg statistisk bevise forskjellen mellom gruppen over 60 og alle andre?

Gjør det selv: Beregne valutakorrelasjoner ved hjelp av Excel

Vi bruker for eksempel Microsoft Excel, men alle andre programmer som kan bruke korrelasjonsformelen vil gjøre det. 7. Etter det velger du cellene med data på EUR/USD. 9. Trykk Enter for å beregne korrelasjonskoeffisienten for EUR/USD og USD/JPY. Det er ikke verdt å oppdatere tallene hver dag (vel, med mindre du er besatt av valutakorrelasjoner).

Du har allerede støtt på behovet for å beregne graden av sammenheng mellom to statistikk og bestemme formelen som de korrelerer med? For å gjøre dette brukte jeg CORREL-funksjonen (CORREL) - det er litt informasjon om det her. Den returnerer graden av korrelasjon mellom to dataområder. Teoretisk kan korrelasjonsfunksjonen foredles ved å konvertere den fra lineær til eksponentiell eller logaritmisk. Analyse av data og korrelasjonsgrafer kan forbedre påliteligheten betydelig.

Anta at celle B2 inneholder selve korrelasjonskoeffisienten, celle B3 inneholder antall fullstendige observasjoner. Har du et russisktalende kontor Jeg fant forresten også en feil - betydningen er ikke beregnet for negative korrelasjoner. Hvis begge variablene er metriske og har normal distribusjon, da er valget riktig. Og er det mulig å karakterisere kriteriet for likhet til kurver ved å bruke bare en QC?Du har ikke likheten til "kurver", men likheten til to serier, som i prinsippet kan beskrives med en kurve.

Har du allerede støtt på behovet for å beregne graden av sammenheng mellom to statistiske størrelser og bestemme formelen som de korrelerer med? Normal person man kan spørre hvorfor dette i det hele tatt kan være nødvendig. Merkelig nok er dette virkelig nødvendig. Å kjenne pålitelige korrelasjoner kan hjelpe deg å tjene en formue hvis du for eksempel er en aksjehandler. Problemet er at av en eller annen grunn er det ingen som avslører disse korrelasjonene (overraskende, er det ikke?).

La oss telle dem selv! For eksempel bestemte jeg meg for å prøve å beregne korrelasjonen mellom rubelen mot dollaren gjennom euroen. La oss se hvordan dette gjøres i detalj.

Denne artikkelen er utviklet for et avansert nivå av kunnskap om Microsoft Excel. Hvis du ikke har tid til å lese hele artikkelen, kan du laste ned filen og håndtere den selv.

Hvis du ofte opplever at du trenger å gjøre noe slikt Jeg anbefaler på det sterkeste at du vurderer å kjøpe boken. Statistiske beregninger i Excel.

Hva er viktig å vite om sammenhenger

For å beregne en pålitelig korrelasjon er det nødvendig å ha et pålitelig utvalg, jo større det er, jo mer pålitelig vil resultatet være. For dette eksempelet har jeg tatt et daglig utvalg av valutakurser over 10 år. Dataene er fritt tilgjengelige, jeg tok dem fra nettstedet http://oanda.com.

Hva gjorde jeg egentlig

(1) Da jeg hadde mine originale data startet jeg med å sjekke graden av korrelasjon mellom de to datasettene. For å gjøre dette brukte jeg CORREL-funksjonen (CORREL) - det er lite informasjon om det. Den returnerer graden av korrelasjon mellom to dataområder. Resultatet var ærlig talt ikke spesielt imponerende (bare rundt 70%). Generelt anses graden av korrelasjon mellom to verdier å være kvadratet av denne verdien, det vil si at korrelasjonen viste seg å være pålitelig med omtrent 49%. Dette er veldig lite!

(2) Det virket veldig rart for meg. Hvilke feil kan ha sneket seg inn i mine beregninger? Så jeg bestemte meg for å lage en graf og se hva som kunne skje. Diagrammet ble holdt enkelt med vilje, brutt ned etter år, slik at du visuelt kan se hvor korrelasjonen bryter. Diagrammet ser slik ut

(3) Fra diagrammet er det åpenbart at i området rundt 35 rubler per euro, begynner korrelasjonen å bryte i to deler. På grunn av dette viste hun seg å være upålitelig. Det var nødvendig å fastslå i forbindelse med hva dette skjer.

(4) Farge viser at disse dataene refererer til 2007, 2008, 2009. Selvfølgelig! Perioder med økonomiske topper og lavkonjunkturer er vanligvis ikke statistisk pålitelige, noe som skjedde i denne saken. Derfor prøvde jeg å ekskludere disse periodene fra dataene (vel, for verifisering sjekket jeg graden av korrelasjon av dataene i denne perioden). Korrelasjonsgraden for kun disse dataene er 0,01%, det vil si at de er fraværende i prinsippet. Men uten dem korrelerer dataene med omtrent 81 %. Dette er allerede en ganske pålitelig korrelasjon. Her er en graf med en funksjon.

Neste skritt

Teoretisk kan korrelasjonsfunksjonen foredles ved å konvertere den fra lineær til eksponentiell eller logaritmisk. Hvori statistisk gyldighet korrelasjonen vokser med omtrent én prosent, men kompleksiteten ved å bruke formelen øker enormt. Derfor, for meg selv, stiller jeg spørsmålet: er det virkelig nødvendig? Du bestemmer - for hvert enkelt tilfelle.

Legge merke til! Løsningen på ditt spesifikke problem vil se lik ut dette eksemplet, inkludert alle tabeller og forklarende tekster nedenfor, men med tanke på dine første data ...

En oppgave:
Det er et relatert utvalg av 26 par med verdier (x k , y k ):

k 1 2 3 4 5 6 7 8 9 10
x k 25.20000 26.40000 26.00000 25.80000 24.90000 25.70000 25.70000 25.70000 26.10000 25.80000
y k 30.80000 29.40000 30.20000 30.50000 31.40000 30.30000 30.40000 30.50000 29.90000 30.40000

k 11 12 13 14 15 16 17 18 19 20
x k 25.90000 26.20000 25.60000 25.40000 26.60000 26.20000 26.00000 22.10000 25.90000 25.80000
y k 30.30000 30.50000 30.60000 31.00000 29.60000 30.40000 30.70000 31.60000 30.50000 30.60000

k 21 22 23 24 25 26
x k 25.90000 26.30000 26.10000 26.00000 26.40000 25.80000
y k 30.70000 30.10000 30.60000 30.50000 30.70000 30.80000

Det kreves for å beregne/bygge:
- korrelasjonskoeffisient;
- test hypotesen om avhengigheten av tilfeldige variabler X og Y, på et signifikansnivå α = 0,05;
- ligningskoeffisienter lineær regresjon;
- spredningsdiagram (korrelasjonsfelt) og regresjonslinjegraf;

LØSNING:

1. Regn ut korrelasjonskoeffisienten.

Korrelasjonskoeffisienten er en indikator på den gjensidige sannsynlige påvirkningen av to tilfeldige variabler. Korrelasjonskoeffisient R kan ta verdier fra -1 før +1 . Hvis den absolutte verdien er nærmere 1 , så er dette bevis sterk tilknytning mellom verdier, og hvis nærmere 0 - da indikerer dette en svak forbindelse eller fravær. Hvis den absolutte verdien R lik en, så kan vi snakke om en funksjonell sammenheng mellom mengder, det vil si at en størrelse kan uttrykkes i form av en annen ved hjelp av en matematisk funksjon.


Du kan beregne korrelasjonskoeffisienten ved å bruke følgende formler:
n
Σ
k = 1
(x k -M x) 2, y 2 =
Mx =
1
n
n
Σ
k = 1
x k, M y =

eller i henhold til formelen

Rx,y =
M xy - M x M y
SxSy
(1.4), hvor:
Mx =
1
n
n
Σ
k = 1
x k, M y =
1
n
n
Σ
k = 1
y k, Mxy =
1
n
n
Σ
k = 1
x k y k (1,5)
S x 2 =
1
n
n
Σ
k = 1
x k 2 - M x 2, S y 2 =
1
n
n
Σ
k = 1
y k 2 - M y 2 (1,6)

I praksis brukes formel (1.4) oftere for å beregne korrelasjonskoeffisienten, siden det krever mindre beregning. Imidlertid, hvis kovariansen tidligere ble beregnet cov(X,Y), da er det mer fordelaktig å bruke formel (1.1), fordi i tillegg til den faktiske verdien av kovariansen, kan du også bruke resultatene av mellomberegninger.

1.1 Beregn korrelasjonskoeffisienten ved å bruke formelen (1.4), for dette beregner vi verdiene x k 2 , y k 2 og x k y k og legger dem inn i tabell 1.

Tabell 1


k
x k y k x k 2 y k 2 x ky k
1 2 3 4 5 6
1 25.2 30.8 635.04000 948.64000 776.16000
2 26.4 29.4 696.96000 864.36000 776.16000
3 26.0 30.2 676.00000 912.04000 785.20000
4 25.8 30.5 665.64000 930.25000 786.90000
5 24.9 31.4 620.01000 985.96000 781.86000
6 25.7 30.3 660.49000 918.09000 778.71000
7 25.7 30.4 660.49000 924.16000 781.28000
8 25.7 30.5 660.49000 930.25000 783.85000
9 26.1 29.9 681.21000 894.01000 780.39000
10 25.8 30.4 665.64000 924.16000 784.32000
11 25.9 30.3 670.81000 918.09000 784.77000
12 26.2 30.5 686.44000 930.25000 799.10000
13 25.6 30.6 655.36000 936.36000 783.36000
14 25.4 31 645.16000 961.00000 787.40000
15 26.6 29.6 707.56000 876.16000 787.36000
16 26.2 30.4 686.44000 924.16000 796.48000
17 26 30.7 676.00000 942.49000 798.20000
18 22.1 31.6 488.41000 998.56000 698.36000
19 25.9 30.5 670.81000 930.25000 789.95000
20 25.8 30.6 665.64000 936.36000 789.48000
21 25.9 30.7 670.81000 942.49000 795.13000
22 26.3 30.1 691.69000 906.01000 791.63000
23 26.1 30.6 681.21000 936.36000 798.66000
24 26 30.5 676.00000 930.25000 793.00000
25 26.4 30.7 696.96000 942.49000 810.48000
26 25.8 30.8 665.64000 948.64000 794.64000


1.2. Vi beregner M x med formel (1.5).

1.2.1. x k

x 1 + x 2 + ... + x 26 = 25,20000 + 26,40000 + ... + 25,80000 = 669,500000

1.2.2.

669.50000 / 26 = 25.75000

M x = 25,750000

1.3. På samme måte beregner vi M y.

1.3.1. La oss legge til alle elementene i rekkefølge y k

y 1 + y 2 + … + y 26 = 30,80000 + 29,40000 + ... + 30,80000 = 793,000000

1.3.2. Del den resulterende summen med antall prøveelementer

793.00000 / 26 = 30.50000

M y = 30,500000

1.4. På samme måte beregner vi M xy.

1.4.1. Vi legger til sekvensielt alle elementene i den sjette kolonnen i tabell 1

776.16000 + 776.16000 + ... + 794.64000 = 20412.830000

1.4.2. Del den resulterende summen med antall elementer

20412.83000 / 26 = 785.10885

M xy = 785,108846

1.5. Beregn verdien av S x 2 ved å bruke formelen (1.6.).

1.5.1. Vi legger til sekvensielt alle elementene i den fjerde kolonnen i tabell 1

635.04000 + 696.96000 + ... + 665.64000 = 17256.910000

1.5.2. Del den resulterende summen med antall elementer

17256.91000 / 26 = 663.72731

1.5.3. Trekk fra det siste tallet kvadratet av verdien M x vi får verdien for S x 2

S x 2 = 663.72731 - 25.75000 2 = 663.72731 - 663.06250 = 0.66481

1.6. Beregn verdien av S y 2 med formelen (1.6.).

1.6.1. Vi legger til sekvensielt alle elementene i den femte kolonnen i tabell 1

948.64000 + 864.36000 + ... + 948.64000 = 24191.840000

1.6.2. Del den resulterende summen med antall elementer

24191.84000 / 26 = 930.45538

1.6.3. Trekk fra det siste tallet kvadratet av M y , vi får verdien for S y 2

S y 2 = 930.45538 - 30.50000 2 = 930.45538 - 930.25000 = 0.20538

1.7. La oss beregne produktet av S x 2 og S y 2.

S x 2 S y 2 = 0,66481 0,20538 = 0,136541

1.8. Trekk ut det siste tallet Kvadratrot, får vi verdien S x S y.

S x S y = 0,36951

1.9. Beregn verdien av korrelasjonskoeffisienten i henhold til formelen (1.4.).

R = (785,10885 - 25,75000 30,50000) / 0,36951 = (785,10885 - 785,37500) / 0,36951 = -0,72028

SVAR: Rx,y = -0,720279

2. Vi sjekker betydningen av korrelasjonskoeffisienten (vi sjekker avhengighetshypotesen).

Siden estimatet av korrelasjonskoeffisienten beregnes på et begrenset utvalg, og derfor kan avvike fra dens generelle verdi, er det nødvendig å kontrollere betydningen av korrelasjonskoeffisienten. Kontrollen gjøres ved å bruke t-kriteriet:

t =
Rx,y
n - 2
1 - R 2 x,y
(2.1)

Tilfeldig verdi t følger Elevens t-fordeling og i henhold til tabellen over t-fordeling er det nødvendig å finne den kritiske verdien av kriteriet (t cr.α) på et gitt signifikansnivå α . Hvis modulo t beregnet ved formel (2.1) viser seg å være mindre enn t cr.α , så vil avhengighetene mellom tilfeldige variabler X og Y er det ikke. Ellers motsier ikke de eksperimentelle dataene hypotesen om avhengigheten av tilfeldige variabler.


2.1. Beregn verdien av t-kriteriet i henhold til formelen (2.1) vi får:
t =
-0.72028
26 - 2
1 - (-0.72028) 2
= -5.08680

2.2. La oss bestemme den kritiske verdien av parameteren t cr.α fra tabellen for t-fordeling

Ønskeverdien t kr.α er plassert i skjæringspunktet mellom raden som tilsvarer antall frihetsgrader og kolonnen som tilsvarer et gitt signifikansnivå α .
I vårt tilfelle er antall frihetsgrader n - 2 = 26 - 2 = 24 og α = 0.05 , som tilsvarer den kritiske verdien av kriteriet t cr.α = 2.064 (se tabell 2)

tabell 2 t-fordeling

Antall frihetsgrader
(n - 2)
α = 0,1 a = 0,05 a = 0,02 a = 0,01 a = 0,002 α = 0,001
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
6 1.943 2.447 3.143 3.707 5.208 5.959
7 1.895 2.365 2.998 3.499 4.785 5.408
8 1.860 2.306 2.896 3.355 4.501 5.041
9 1.833 2.262 2.821 3.250 4.297 4.781
10 1.812 2.228 2.764 3.169 4.144 4.587
11 1.796 2.201 2.718 3.106 4.025 4.437
12 1.782 2.179 2.681 3.055 3.930 4.318
13 1.771 2.160 2.650 3.012 3.852 4.221
14 1.761 2.145 2.624 2.977 3.787 4.140
15 1.753 2.131 2.602 2.947 3.733 4.073
16 1.746 2.120 2.583 2.921 3.686 4.015
17 1.740 2.110 2.567 2.898 3.646 3.965
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
21 1.721 2.080 2.518 2.831 3.527 3.819
22 1.717 2.074 2.508 2.819 3.505 3.792
23 1.714 2.069 2.500 2.807 3.485 3.767
24 1.711 2.064 2.492 2.797 3.467 3.745
25 1.708 2.060 2.485 2.787 3.450 3.725
26 1.706 2.056 2.479 2.779 3.435 3.707
27 1.703 2.052 2.473 2.771 3.421 3.690
28 1.701 2.048 2.467 2.763 3.408 3.674
29 1.699 2.045 2.462 2.756 3.396 3.659
30 1.697 2.042 2.457 2.750 3.385 3.646
40 1.684 2.021 2.423 2.704 3.307 3.551
60 1.671 2.000 2.390 2.660 3.232 3.460
120 1.658 1.980 2.358 2.617 3.160 3.373
1.645 1.960 2.326 2.576 3.090 3.291


2.2. La oss sammenligne den absolutte verdien av t-kriteriet og t cr.α

Absolutt verdi t-kriteriet er ikke mindre enn kritisk t = 5,08680, tcr.α = 2,064, derfor eksperimentelle data, med en sannsynlighet på 0,95(1 - α ), ikke motsi hypotesen på avhengigheten av tilfeldige variabler X og Y.

3. Vi beregner koeffisientene til den lineære regresjonsligningen.

Den lineære regresjonsligningen er en likning av en rett linje som tilnærmer (beskriver omtrent) forholdet mellom stokastiske variable X og Y. Hvis vi antar at X er fri og Y er avhengig av X, vil regresjonsligningen skrives som følger


Y = a + b X (3.1), hvor:

b=Rx,y
y
σ x
= Rx,y
Sy
S x
(3.2),
a = M y - b M x (3,3)

Koeffisienten beregnet ved formel (3.2) b kalles den lineære regresjonskoeffisienten. I noen kilder en kalt konstant koeffisient regresjon og b i henhold til variablene.

Prediksjonsfeil Y for en gitt verdi X beregnes ved hjelp av formlene:

Verdien σ y/x (formel 3.4) kalles også gjenværende standardavvik, karakteriserer det avviket til Y fra regresjonslinjen beskrevet av ligning (3.1) ved en fast (gitt) verdi av X.

.
S y 2 / S x 2 = 0,20538 / 0,66481 = 0,30894. Vi trekker ut kvadratroten fra det siste tallet - vi får:
S y / S x = 0,55582

3.3 Regn ut koeffisienten b etter formel (3.2)

b = -0.72028 0.55582 = -0.40035

3.4 Regn ut koeffisienten a etter formel (3.3)

en = 30.50000 - (-0.40035 25.75000) = 40.80894

3.5 Estimer feilene i regresjonsligningen.

3.5.1 Vi trekker ut kvadratroten fra S y 2 og får:

= 0.31437
3.5.4 Beregn relativ feil etter formel (3.5)

δy/x = (0,31437 / 30,50000)100 % = 1,03073 %

4. Vi bygger et spredningsplott (korrelasjonsfelt) og en graf over regresjonslinjen.

Spredningsdiagrammet er grafisk bilde tilsvarende par (x k , y k ) i form av punkter i planet, i rektangulære koordinater med aksene X og Y. Korrelasjonsfeltet er ett av grafiske representasjoner koblet (paret) prøve. I samme koordinatsystem er også grafen til regresjonslinjen plottet. Skalaene og startpunktene på aksene bør velges med omhu slik at diagrammet er så tydelig som mulig.

4.1. Vi finner at minimums- og maksimumselementet i prøven X er henholdsvis 18. og 15. element, x min = 22,10000 og x max = 26,60000.

4.2. Vi finner at minimums- og maksimumselementet i prøven Y er henholdsvis 2. og 18. element, y min = 29,40000 og y max = 31,60000.

4.3. På abscisseaksen velger vi startpunktet like til venstre for punktet x 18 = 22.10000, og en slik skala at punktet x 15 = 26.60000 passer på aksen og de andre punktene er tydelig atskilt.

4.4. På y-aksen velger vi startpunktet like til venstre for punktet y 2 = 29,40000, og en slik skala at punktet y 18 = 31,60000 passer på aksen og de andre punktene er tydelig atskilt.

4.5. På abscisseaksen plasserer vi verdiene x k , og på ordinataksen plasserer vi verdiene y k .

4.6. Vi setter poeng (x 1, y 1), (x 2, y 2), ..., (x 26, y 26 ) på koordinatplan. Vi får et spredningsdiagram (korrelasjonsfelt), vist i figuren under.

4.7. La oss tegne en regresjonslinje.

For å gjøre dette finner vi to ulike punkter med koordinater (x r1 , y r1) og (x r2 , y r2) som tilfredsstiller ligning (3.6), setter vi dem på koordinatplanet og tegner en linje gjennom dem. La oss ta x min = 22.10000 som abscissen til det første punktet. Vi erstatter verdien av x min i ligning (3.6), vi får ordinaten til det første punktet. Dermed har vi et punkt med koordinater (22.10000, 31.96127). På samme måte får vi koordinatene til det andre punktet, og setter verdien x max = 26,60000 som abscissen. Det andre punktet vil være: (26.60000, 30.15970).

Regresjonslinjen er vist i figuren under i rødt

Vær oppmerksom på at regresjonslinjen alltid går gjennom punktet for gjennomsnittsverdiene til X og Y, dvs. med koordinater (M x , M y).

LABORATORIEARBEID

KORELLASJONSANALYSE IUTMERKE

1.1 Korrelasjonsanalyse i MS Excel

Korrelasjonsanalyse består i å bestemme graden av sammenheng mellom to stokastiske variabler X og Y. Korrelasjonskoeffisienten brukes som mål på en slik sammenheng. Korrelasjonskoeffisienten er estimert fra et utvalg av volumet n av relaterte observasjonspar (xi, y i) fra den felles generelle befolkningen X og Y. For å vurdere graden av sammenheng mellom X og Y målt i kvantitative skalaer, bruker vi lineær korrelasjonskoeffisient(Pearsons koeffisient), forutsatt at prøvene X og Y er fordelt i henhold til normalloven.

Korrelasjonskoeffisienten varierer fra -1 (strengt inverst lineært forhold) til 1 (strengt direkte proporsjonalt forhold). Ved en verdi på 0 er det ingen lineær sammenheng mellom de to prøvene.

Generell klassifisering av korrelasjoner (ifølge Ivanter E.V., Korosov A.V., 1992):

Det finnes flere typer korrelasjonskoeffisienter, avhengig av X- og Y-variablene, som kan måles på forskjellige skalaer. Det er dette faktum som bestemmer valget av passende korrelasjonskoeffisient (se tabell 13):

I MS Excel brukes en spesiell funksjon for å beregne sammenkoblede lineære korrelasjonskoeffisienter CORREL(matrise1; matrise2),

forsøkspersoner

hvor array1 er en referanse til celleområdet for det første utvalget (X);

Eksempel 1: 10 skoleelever fikk tester for visuelt-figurativ og verbal tenkning. Gjennomsnittlig tid for å løse testoppgaver ble målt i sekunder. Forskeren er interessert i spørsmålet: er det en sammenheng mellom tidspunktet for å løse disse problemene? Variabelen X angir gjennomsnittlig tid for å løse visuell-figurative tester, og variabelen Y angir gjennomsnittlig tid for å løse verbale oppgaver av tester.

R Løsning: For å identifisere graden av forhold, er det først og fremst nødvendig å legge inn data i MS Excel-tabellen (se tabell, fig. 1). Deretter beregnes verdien av korrelasjonskoeffisienten. For å gjøre dette, plasser markøren i celle C1. På verktøylinjen klikker du på Sett inn funksjon (fx).

Velg en kategori i funksjonsveiviser-dialogen som vises Statistisk og funksjon CORREL, og klikk deretter OK. Bruk musepekeren til å angi eksempeldataområdet X i array1-feltet (A1:A10). I array2-feltet skriver du inn eksempeldataområdet Y (B1:B10). Klikk OK. I celle C1 vil verdien av korrelasjonskoeffisienten vises - 0,54119. Deretter må du se på det absolutte tallet på korrelasjonskoeffisienten og bestemme typen forhold (nær, svak, middels, etc.)

Ris. 1. Resultater av beregning av korrelasjonskoeffisienten

Dermed er sammenhengen mellom tidspunktet for å løse visuelt-figurative og verbale oppgaver i testen ikke bevist.

Øvelse 1. Data er tilgjengelig for 20 jordbruksbedrifter. Finne korrelasjonskoeffisient mellom avlingene av kornavlinger og kvaliteten på landet og vurdere betydningen. Dataene er gitt i tabellen.

Tabell 2. Avhengighet av kornavling av jordkvalitet

husnummer

Landkvalitet, poengsum

Produktivitet, c/ha


Oppgave 2. Bestem om det er et forhold mellom driftstiden til en treningsmaskin (tusen timer) og kostnadene for reparasjonen (tusen rubler):

Simulatordriftstid (tusen timer)

Reparasjonskostnader (tusen rubler)

1.2 Multippelkorrelasjon i MS Excel

store tall observasjoner, når korrelasjonskoeffisientene må beregnes sekvensielt for flere prøver, for enkelhets skyld oppsummeres de resulterende koeffisientene i tabeller kalt korrelasjonsmatriser.

Korrelasjonsmatrise er en kvadratisk tabell der i skjæringspunktet mellom de tilsvarende radene og kolonnene er korrelasjonskoeffisienten mellom de tilsvarende parameterne.

I MS Excel brukes prosedyren for å beregne korrelasjonsmatriser sammenheng fra pakken Dataanalyse. Prosedyren gjør det mulig å oppnå en korrelasjonsmatrise som inneholder korrelasjonskoeffisienter mellom ulike parametere.

For å implementere prosedyren må du:

1. kjør kommando Service - Analyse data;

2. i listen som vises Analyseverktøy velg linje Sammenheng og trykk på knappen OK;

3. Angi i dialogboksen som vises inndataintervall, det vil si, angi en lenke til cellene som inneholder de analyserte dataene. Inndataintervallet må inneholde minst to kolonner.

4. seksjon gruppering still bryteren i henhold til de angitte dataene (etter kolonner eller rader);

5. angi fridag intervall, det vil si, angi en referanse til cellen, fra hvilken analyseresultatene vil vises. Størrelsen på utdataområdet vil bli bestemt automatisk, og en melding vil vises på skjermen hvis utdataområdet kan overlappe med kildedataene. Trykknapp OK.

En korrelasjonsmatrise vil vises i utgangsområdet, der det i skjæringspunktet mellom hver rad og kolonne er en korrelasjonskoeffisient mellom de tilsvarende parameterne. Celler i utdataområdet som har samme rad- og kolonnekoordinater inneholder verdien 1 fordi hver kolonne i inndataområdet er fullstendig korrelert med seg selv

Eksempel 2 Månedlige data er tilgjengelige for observasjoner av værforhold og besøk på museer og parker (se tabell 3). Det er nødvendig å avgjøre om det er en sammenheng mellom værtilstanden og besøket til museer og parker.

Tabell 3. Resultater av observasjoner

Antall klare dager

Antall museumsbesøkende

Antall besøkende i parken

Løsning. For å utføre en korrelasjonsanalyse, skriv inn de første dataene i området A1:G3 (fig. 2). Så på menyen Service Velg en Analyse data og legg deretter til linjen Sammenheng. Skriv inn i dialogboksen som vises inndataintervall(A2:C7). Spesifiser at dataene vurderes av kolonner. Spesifiser utgangsområdet (E1) og trykk på knappen OK.

På fig. 33 kan man se at korrelasjonen mellom værforhold og museumsbesøk er -0,92, og mellom værforhold og parkbesøk - 0,97, mellom park- og museumsbesøk - 0,92.

Som et resultat av analysen ble det således avdekket avhengigheter: en sterk omvendt lineær sammenheng mellom museumsbesøk og antall soldager og en nesten lineær (veldig sterk direkte) sammenheng mellom parkoppmøte og værforhold. Det er et sterkt omvendt forhold mellom museum og parkoppmøte.

Ris. 2. Resultater av beregning av korrelasjonsmatrisen fra eksempel 2

Oppgave 3. 10 ledere ble evaluert i henhold til metodikken for ekspertvurderinger av de psykologiske egenskapene til lederens personlighet. 15 eksperter vurderte hver psykologisk egenskap i henhold til et fempunktssystem (se tabell 4). Psykologen er interessert i spørsmålet om hvilket forhold disse egenskapene til lederen er til hverandre.

Tabell 4. Resultater av studien

Emner p / s

takt

nøyaktighet

kritikalitet

Med en sammenheng samme verdi av ett attributt tilsvarer forskjellige verdier av det andre. For eksempel: det er en sammenheng mellom høyde og vekt, mellom forekomsten av ondartede neoplasmer og alder osv.

Det er 2 metoder for å beregne korrelasjonskoeffisienten: metoden for kvadrater (Pearson), metoden for rangeringer (Spearman).

Den mest nøyaktige er metoden med kvadrater (Pearson), der korrelasjonskoeffisienten bestemmes av formelen: , hvor

r xy er korrelasjonskoeffisienten mellom statistiske serier X og Y.

d x er avviket til hvert av tallene i den statistiske serien X fra dens aritmetiske gjennomsnitt.

d y er avviket til hvert av tallene i den statistiske serien Y fra dens aritmetiske gjennomsnitt.

Avhengig av styrken på forbindelsen og dens retning, kan korrelasjonskoeffisienten variere fra 0 til 1 (-1). En korrelasjonskoeffisient på 0 indikerer fullstendig mangel på forbindelse. Jo nærmere nivået av korrelasjonskoeffisienten er 1 eller (-1), jo større henholdsvis, jo nærmere direkte eller tilbakemelding målt av den. Med en korrelasjonskoeffisient lik 1 eller (-1), er forbindelsen komplett, funksjonell.

Skjema for å estimere styrken til korrelasjonen ved korrelasjonskoeffisienten

Styrke av forbindelse

Verdien av korrelasjonskoeffisienten, hvis tilgjengelig

direkte tilkobling (+)

tilbakemelding (-)

Ingen forbindelse

Kommunikasjonen er liten (svak)

fra 0 til +0,29

0 til -0,29

Kommunikasjonsgjennomsnitt (moderat)

+0,3 til +0,69

-0,3 til -0,69

Kommunikasjon stor (sterk)

+0,7 til +0,99

-0,7 til -0,99

Kommunikasjonen er fullført

(funksjonell)

For å beregne korrelasjonskoeffisienten ved å bruke kvadratmetoden, er det satt sammen en tabell med 7 kolonner. La oss analysere beregningsprosessen ved å bruke et eksempel:

BESTEM STYRKEN OG ARTEN AV FORHOLDET MELLOM

Det er på tide-

ness

struma

(V y )

d x= V xM x

d y= V yM y

d x d y

d x 2

d y 2

Σ -1345 ,0

Σ 13996 ,0

Σ 313 , 47

1. Bestem gjennomsnittlig innhold av jod i vann (i mg / l).

mg/l

2. Bestem gjennomsnittlig forekomst av struma i %.

3. Bestem avviket til hver V x fra M x, dvs. d x.

201–138=63; 178–138=40 osv.

4. Tilsvarende bestemmer vi avviket til hver V y fra M y, dvs. d

0,2–3,8=-3,6; 0,6–38=-3,2 osv.

5. Vi bestemmer produktene av avvik. Det resulterende produktet summeres og oppnås.

6. Vi kvadrat d x og oppsummerer resultatene, vi får.

7. På samme måte kvadrerer vi d y, oppsummerer resultatene, vi får

8. Til slutt erstatter vi alle mottatte beløp i formelen:

For å løse problemet med påliteligheten til korrelasjonskoeffisienten, bestemmes det gjennomsnittlig feil i henhold til formelen:

(Hvis antall observasjoner er mindre enn 30, så er nevneren n-1).

I vårt eksempel

Verdien av korrelasjonskoeffisienten anses som pålitelig hvis den er minst 3 ganger høyere enn gjennomsnittsfeilen.

I vårt eksempel

Korrelasjonskoeffisienten er dermed ikke pålitelig, noe som gjør det nødvendig å øke antall observasjoner.

Korrelasjonskoeffisienten kan bestemmes på en noe mindre nøyaktig, men mye enklere måte, rangeringsmetoden (Spearman).

Spearman-metoden: P=1-(6∑d 2 /n-(n 2 -1))

lag to rader med sammenliknede funksjoner, og angir henholdsvis første og andre rad, x og y. Presenter samtidig den første raden av attributtet i synkende eller stigende rekkefølge, og plasser de numeriske verdiene i den andre raden overfor verdiene i den første raden som de tilsvarer

verdien av funksjonen i hver av de sammenlignede radene bør erstattes av et serienummer (rangering). Rangeringer, eller tall, indikerer stedene for indikatorer (verdier) for den første og andre raden. Hvori numeriske verdier av det andre attributtet, må rangeringene tildeles i samme rekkefølge som ble vedtatt da de ble distribuert til verdiene til det første attributtet. Med de samme verdiene for attributtet i serien, bør rangeringene bestemmes som gjennomsnittstall fra summen av ordenstallene til disse verdiene

bestem forskjellen i rangeringer mellom x og y (d): d = x - y

kvadrat den resulterende rangeringsforskjellen (d 2)

få summen av kvadrater av forskjellen (Σ d 2) og bytt inn de oppnådde verdiene i formelen:

Eksempel: ved å bruke rangeringsmetoden for å fastslå retningen og styrken til forholdet mellom tjenestetiden i år og skadefrekvensen, hvis følgende data er innhentet:

Begrunnelse for valg av metode: for å løse problemet er det kun metoden som kan velges rangkorrelasjon, fordi den første raden i attributtet "arbeidserfaring i år" har åpne alternativer (yrkeserfaring opptil 1 år og 7 eller flere år), som ikke tillater bruk av en mer nøyaktig metode - metoden med kvadrater - for å etablere et forhold mellom sammenlignet egenskaper.

Løsning. Rekkefølgen av beregninger er beskrevet i teksten, resultatene er presentert i tabell. 2.

tabell 2

Arbeidserfaring i årevis

Antall skader

Ordningstall (ranger)

Rangeringsforskjell

rangeringsforskjell i annen

d(x-y)

d 2

Hver av radene med sammenkoblede tegn er merket med "x" og med "y" (kolonne 1-2).

Verdien av hvert av tegnene erstattes av et rangeringsnummer (serienummer). Rekkefølgen for fordeling av rangeringer i "x"-serien er som følger: minimumsverdien av attributtet (erfaring opptil 1 år) tildeles serienummeret "1", henholdsvis de påfølgende variantene av samme serie av attributtet , i økende rekkefølge etter 2., 3., 4. og 5. serienummer - rekker (se kolonne 3). En lignende rekkefølge observeres når rangeringer fordeles til den andre funksjonen "y" (kolonne 4). I de tilfellene hvor det er flere varianter av samme størrelse (for eksempel i standardoppgaven er dette 12 og 12 skader per 100 arbeidere med erfaring på 3-4 år og 5-6 år), er serienummeret angitt ved gjennomsnittlig antall fra summen av deres serienumre Disse dataene om antall skader (12 skader) i rangeringen bør ta 2. og 3. plass, så gjennomsnittlig antall av dem er (2 + 3) / 2 = 2,5. ) skal fordele de samme rangeringsnumrene - "2.5" (kolonne 4).

Bestem forskjellen i rangeringer d = (x - y) - (kolonne 5)

Kvadrere forskjellen i ranger (d 2) og få summen av kvadrater av forskjellen i ranger Σ d 2 (kolonne 6).

Beregn rangkorrelasjonskoeffisienten ved å bruke formelen:

der n er antall matchede par med alternativer i rad "x" og rad "y"